作为一名翻译工作从业者,在学校时我也没少跟机器翻译打交道,当时得出的结论总是「机器翻译就是逊啦」。而前阵子,某个行业群里提到翻译工作要加快速度的问题,有人提到说 DeepL 的效果不错,我随手找了段中文试了一下,发现效果确实出乎意料——「机器翻译已经到这个程度了?」

于是乎,我想遍历一下市面上几个常见机器翻译工具,看看各家成色到底如何,可用性究竟有多少——于是也便有了这篇文章。

文本类型理论、素材选择和选手介绍

为了全面反映目前机器翻译工具的能耐,肯定需要尽可能全面地选择测试用的语料,也即要覆盖尽可能全面的文本类型。了解翻译理论的读者应该对 Reiß (1977/1989, in Munday (2016)) 提出的文本类型(text types)理论比较熟悉。要之,Reiß 将文本按功能分为表达型(expressive)、信息型(informative)、感召型(operative)三大类,不同的文本表现不同的功能或功能组合。

Munday (2016)

按照这个三角形的简化模型,不同种类的文本都能对应三角形中的一个位置,离哪个角越近,对应功能的表现就越明显。为了反映出机器翻译工具处理不同类型文本时的差异,选择的文本类型自然是越极端越好。因此,本文选择了这样三篇文本:

  • 第一篇是路遥《平凡的世界》中的选段,用作表达型文本;
  • 第二篇是《二〇一六年中国知识产权保护状况》中的选段,用作信息型文本;
  • 第三篇是几家国产手机厂商官网的部分介绍文字1 ,选了文字最肉麻的几段,可以看作广告,也即感召型文本。

每篇的字数都在 1000 字上下。当然,只比较汉译英一个方向并不足够,所以英译汉方向也选择了三篇文本:

  • 第一篇是 Jack London 的 The Call of the Wild ,用作表达型文本;
  • 第二篇是 The Lancet 上 van der Pluijm et al. (2020) 的摘要部分,用作信息型文本;
  • 第三篇是几家外国手机厂商官网的宣传文字5 ,用作感召型文本。

每篇字数均在 600 词上下。

此次勾起我兴趣的是 DeepL(少数派此前也有 介绍),但我也很好奇,其他几家提供免费翻译服务的公司,目前的机器翻译到了什么水平。于是,一同参加比赛的,还有 百度微软Google有道腾讯 五名选手。不知道喂进相同的语料,到底能拉开多少差距……

数据分析

……是我分析翻译结果之前的想法。事实证明,喂进此次测试的语料后,这六家的译文质量可以说「很平均」(除了微软),虽然各有差异,但总归是共性大于个性,该踩的坑基本上都不会错过,间或有各自的亮点。

需要说明的是,以下的截图仅指出原文加粗部分的翻译问题,不代表译文的其他部分完美无缺。

汉译英

先说表达型文本。把文学作品交给机器来翻译,向来都是老大难。中文本身灵活(这一点会经常被拿出来说事),一词多义就会是个很大的麻烦:比如:

「菜」就一定是蔬菜?「饭」(文中指黑面馍就菜汤)就一定是米饭?

一些方言土语也会造成麻烦:

「院坝」指屋前屋后的平地,而非「院子的水坝」;只有有道破题成功。

更严重的应该是时态问题。中文不是屈折语,没有显著的时态标记,但一般文学作品中,默认会推定为过去时;不幸的是,机器还没这个「推定」的能力:

其他语法错误不一而足。其实可以看出,机器基本能够保证「成句」,而不只是生成支离破碎的短语,这已经算是不小的进步了;但中文本身的灵活性就导致一些句子,人读起来能理解,机器就非常勉强:

应读作「人长(zhǎng)布缩」,可惜机器没法根据上下文辨别多音字。至于「半腿把」这个方言,更是全军覆没。

如果说表达型文本对机器来说是个老大难,感召型恐怕就是老大难中的老大难:

宣传语中会像上图这样,大量使用无主句(结构上没有明确主语的句子),机器也不会擅自添加一个主语。

不知道大家有没有发现,国产手机厂商的宣传语,总会有这样「矫揉造作」的文段,说了很多,但似乎什么也没说,翻成英文之后,缺点便会百倍放大——当然,这说的是机器翻译。毕竟这些厂商自己的英文宣传语肯定都是人工本地化,自然能基本排除这类问题。不过这也从另一方面折射出机器翻译在创意方面的捉襟见肘。所以,如果你需要翻译公司简介、公司名称、公司标语这类可能掺杂创意元素的文本,最好离机器翻译越远越好。

历经了前面两种文本的惨状,信息型文本总算能让这几个平台扳回一城。 这段材料本身选得就比较取巧,结构相对简单,基本都是「某某的数字达到了某某,上升了某某」。像这种结构单一,找坑往里填东西的句式,机器处理得还不错:

当然,「还不错」的意思是指,这些译文基本能做到「对」,但离「好」还有些距离,有些元素其实可以抽出合并,让句式不那么死板——当然,现阶段这也还是仅限人工,机器暂时无福享受。

测试的这些翻译工具基本都是通用平台,这既意味着它们能处理绝大多数类型的文本,也意味着涉及专业的地方肯定会拉胯:

例如,此处的「马德里商标国际注册」指的是 马德里体系 下的国际商标注册,而非字面意思上的「在马德里注册」,可惜翻译工具在这里全军覆没。当然,别说机器做不到,对此领域不熟悉的普通译者也做不到,但这正是人工辨别未知、了解未知的能力所能干预,而机器暂时所不能的领域。

英译汉

相比汉译英,英译汉应该是大家更常用机器翻译的翻译方向,作为汉语母语者2 ,其中的错误自然也是一目了然。还是先从表达型文本开刀:

作者在这里营造的是一个近似原始人的形象(可以自行搜索相关图片,帮助理解),头部特征与现在所说的一般人有差别,但可以想像,「from」指的也应当是头自眼睛「上面」开始向后倾斜;而机器翻译的结果就让人基本摸不着头脑,因为「头」在什么位置的都有。

一些小词也会造成啼笑皆非的错误;无他,机器想像不到这是什么样的姿势,自然也没法对应描述。值得庆幸的是,有道居然做到了。

英语灵活的语序和插入成分也能造成麻烦;幸而大多数翻译工具都能通过添词,保证语篇和意思连贯,Google 和微软会在这里翻车,实在是出人意料。

如果说中文的手机宣传语是「矫揉造作」,外国手机的宣传语就算得上是「单刀直入」,没有太多的修饰语,基本都是「某某能做某某事」这样的结构。但机器翻译犯难的地方,就在于没法通过本地化,模拟国产手机宣传词的「神」,从而符合中文语境下这类文字的写法:

还有像 Google 这样,不知道什么该翻什么不该翻的。

但大体上,这类文本长难句不多,机器还算是能应付。理论上机器更好应付的是技术性更强、艺术性更弱、术语满天飞的信息类文本——正如英译汉的这篇信息类文本。

百度翻译可以选择文本领域,其中包含「生物医药」,其译文与选择「通用领域」的译文有较大出入,故同样包括在这一部分的结果中。

可以看到,翻译平台的术语处理大致正确,但还是有些出入,甚至有些放弃努力的,原因也很难考证。

而这一句则暴露出了目前机器翻译一大严重问题:(几乎)读不懂原文,导致无法辨别修饰关系。有些地方的修饰关系就近、就远皆可,但这句话中,几乎所有翻译平台都将「drug resistance」合并处理,放弃了前面的「artemisinin」,导致译文逻辑完全错误。百度的生物医药、Google 和腾讯都捋顺了,值得表扬。

结论:现在的文档翻译工具效果到底怎么样?

记得老罗在发布会上推介语音输入,说到成功率有 97%。有人认为,只要没有到 100%,再高的成功率都意味着需要返工修正,因此,断言语音输入是一大革命为时尚早。这观点没错,甚至可以说与机器翻译目前的局面不无相似之处:如大家所见,比起语音输入,机器翻译的成功率只低不高,返工的代价之高,有时不如用人工推倒重来。

但因此一棒子将语音输入或机器翻译打死,都不应该。虽然上面这一千来字几乎全是对机器翻译的批判,但不可否认的是,1000 字扔进去,三秒不到就可以给结果3 ,速度上的优势以及基本合格的准确率,是人工无论如何也抹不平的,也正因此,译后编辑(machine translation post-editing, MTPE)才得以存在,并几乎成为大批量文本翻译的唯一解决之道。

回到纯粹的机器翻译工具。到底能不能用?怎么用?用了之后能不能直接拿译文去用?——这一切问题的答案都取决于你的需求。现在的机器翻译已经进入了神经网络赋能的时代4 ,各家所用的训练集都不一样,得到的结果也如文章中展示的那样千差万别。回到段首提的问题,最好的答案总结下来,大概有这几条:

  • 拿自己需要翻译的文本,喂给这些工具,看译文的成色。如果还能接受,就改改;接受不来,就老老实实找人工。
  • 有的平台(譬如百度)有一些领域(生物医药、电子科技、水力机械)供选择,由于采用了相应领域的文本进行训练,对应的译文质量较通用领域也有一定提升,翻译相关领域的专业文本(譬如本文提到的信息型文本)时可以考虑,但译文仅供自己参考理解意思
  • 其他仅提供通用语语或不标明语域的平台,理论上可以处理各类文本,但译文仅供自己参考理解意思,若要拿出去用,不返工编辑是不可能的——毕竟翻译本身就不是字对字转换文字的活动。即便如今基于神经网络的机器翻译能够在句子层面一定程度摆脱字面,但段落乃至语篇层面还是亦步亦趋,至于按照语境增删添改更是天方夜谭,一切都要从具体需要出发。
  • 如果涉及非通用语,百度(200 种)和 Google(108 种)可能是更好的选择。至于这么多种语言,其中水分几何,我对于非通用语知识浅薄,没法一一判断,各位如有需要,建议咨询专业人士再做决定。
  • 至于涉及创意元素多的(譬如彻头彻尾的感召型文本),或者要求本身就高的,就暂时忘了机器翻译吧。

本文介绍的翻译工具均可在 web 端直接使用。除微软、Google、DeepL 有明确的字数限制(单次 5000 字/词)外,其他三家均无限制。腾讯的译文粘贴下来会按句断行,需要注意。

如果觉得本文的评估看下来意犹未尽,你可以在 这里(7thc)下载测试用文本和翻译工具的翻译结果,自己评估。

参考文献

  • London, J. (2008). The Call of the Wild. Project Gutenberg.
  • Reiß, K. (1977/1989). Text types, translation types and translation assessment. In J. Munday (2016), Introducing Translation Studies. New York: Routledge.
  • van der Pluijm, R. W. et al. (2020). Triple artemisinin-based combination therapies versus artemisinin-based combination therapies for uncomplicated Plasmodium falciparum malaria: a multicentre, open-label, randomised clinical trial. The Lancet. doi:10.1016/s0140-6736(20)30552-3
  • 路遥. (2017). 平凡的世界. 北京: 北京十月文艺出版社.
  • 《二〇一六年中国知识产权保护状况》
  • 各手机厂商的宣传语(排名不分先后):华为 P40OPPO Find X2 Pro小米 10 ProApple 11 ProPixel三星 S20三星 Galaxy Z Flip

> 下载少数派 客户端、关注 少数派公众号,找到数字时代更好的生活方式 🎊

> 特惠、好用的硬件产品,尽在 少数派sspai官方店铺 🛒