进击的 Google 翻译──透过神经机器翻译系统,Google 翻译可望与人类译者并驾齐驱?

进击的 Google 翻译──透过神经机器翻译系统,Google 翻译可望与人类译者并驾齐驱?

自 2001 年 Google 推出线上翻译系统以来,该系统从原本仅能翻 9 种语言、进步到能翻 103 种语言,以前常常发生的词语排列不合文法和歧义理解有误等问题,如今也藉着采用新的翻译系统而多有改善。现在,Google 翻译每日要翻译 1,400 亿以上的单字,并服务数百万的用户。

究竟 Google 翻译是如何运作,又进行了什么改革,才有如此出色的能力?Google 翻译又是否真的已经可以取代有血有肉的翻译员?以下便针对 Google 翻译的系统沿革和优缺点,进行简单的说明。

Google 翻译的基础和早期系统架构:机器学习和片语式机器翻译

Google 翻译是以机器学习(machine learning)为基础来应付语言的复杂多变。机器学习多运用在人工智慧上,指机器从已知资料中分析出规律,再把规律套用在新资料上,并在不断套用的过程中提高效率或进行修正。藉着机器学习,Google 翻译让电脑自己找出不同语言的文法规则,省下慢慢教电脑文法的麻烦。

学会文法后,接下来就面临翻译正确性的问题。早期的 Google 翻译要翻译句子时,会先将原文拆成单字或片语,接着利用统计学和 Google 收集的大量现存翻译资料,分别选出这些单字片语最普遍的译法,再依照文法重组成句子。这种类似逐字翻译的演算法,称作片语式机器翻译(phrase-based machine translation,以下简称 PBMT)。

PBMT 即使是当时先进的机器翻译系统,但免不了许多缺点。首先,统计出来最有可能的翻译,有时不是最正确的。比方说,假如大多数资料把 took off 译作“起飞”,Google 翻译便很有可能把 I took off my clothes(我脱掉我的衣服)译作“我起飞我的衣服”。其次,PBMT 以翻译单字片语为主,翻译句子的能力有其极限。当句子长、结构复杂、有歧义(ambiguity)或是有文法上的例外的时候,PBMT 便容易翻错。最后,若没有某两种语言的直接互译资料,PBMT 必须透过多次转译,才能翻译完成,而这个过程使得效率和翻译的正确性大打折扣。

由于有这些缺点,加上 Google 翻译的资料库以英文为主(不论是原文或译文),当翻译资料稀少或遇到和英文文法差异大的语言时,Google 翻译的出错率就会升高。为了翻得更快更好,Google 翻译的改进势在必行。

Google 翻译大革新:神经机器翻译和零数据翻译

约在采用 PBMT 系统 10 年后,Google 翻译于 2016 年宣布今后会以神经机器翻译(Google Neural Machine Translation system,以下简称 GNMT)取代 PBMT,并声称翻译会变得更准确、通顺。
GNMT 的特色是以句子为单位进行翻译。翻译句子时,它会将句中每个字编码成向量,该向量代表着这个字和它之前所有字合在一起的意思。比方说,句子里第 3 个字的向量代表第一、第二个字和它自己本身合起来的意义。这个含意是系统才可以解读的,而非人类可以理解。等到该句的向量全部被编码出来,GNMT 会再进行解码。每次解码不会只针对一个向量,而是会连其余向量都一起纳入考量,以生成对应的翻译。总结来说,比起把句子拆成单字后独立翻译的 PBMT,GNMT 更加重视句子的结构和字词间的关系,能更正确的分析全句意义再进行翻译。

Google 翻译团队声称,采用 GNMT 后,几个主要语言的翻错率降低了 55% 到 58%。除此之外,在 2016 年时的翻译测验里,评分员给了 GNMT 接近人类译者的分数。以上事例皆显示 GNMT 比 PBMT 有更佳的表现,甚至可说是非常“人类”。

进击的 Google 翻译──透过神经机器翻译系统,Google 翻译可望与人类译者并驾齐驱? AI与大数据 图2张

▲ 人类、GNMT 和 PBMT 的翻译对照。(Source:Google Research Blog)

进击的 Google 翻译──透过神经机器翻译系统,Google 翻译可望与人类译者并驾齐驱? AI与大数据 图3张

▲人类评分员评比人类、GNMT 和 PBMT 翻译品质分数表。分数从最低分 0 分到满分 6 分,代表从“无意义的乱翻”到“完美的翻译”。(Source:Google Research Blog)

另外,Google 翻译的团队还发现,对 GNMT 进行改良后,GNMT 便能在没有 A 语言和 B 语言互译资料的情况下进行该两种语言的直接翻译,也就是实现零数据翻译(zero-shot translation),这是以往依赖统计资料的 PBMT 所难以达成的。

Google 翻译是如何做到零数据翻译的?先前有提到,GNMT 会把句子编码成向量。由于向量代表句子的含意,而同一句话几乎不会因为语言不同而改变太大的意思,因此理论上不同语言的同一句话会拥有相近的向量。Google 翻译改良 GNMT 时,让两种语言互译的翻译知识(translation knowledge)能在翻译其他语言时做为参考。如此一来,GNMT 能有效率的掌握同一句话在不同语言间的向量,并迅速找到相对应的译文。举例来说,如果 Google 翻译有同一句话英文翻成韩文和英文翻成日文的资料,想要进行它从没做过的日韩翻译时,只要有了该句日文版本的向量,它便能很快地找到数据相近的韩文版本的向量,期间完全不用转译成英文。这使得 GNMT 在翻译效率和正确性两方面都胜出早期的 PBMT。

Google 翻译取代人类翻译?

面对翻译水准大大提升的 Google 翻译,以翻译为生的人可能会担心丢了饭碗。其实,现今的 Google 翻译依然有不足之处。比方说,它会漏字、不太会翻少见的用语或法律条文之类复杂的文体,也没有办法翻得像人类一样有“诗意”或斟酌译文的语气和风格等。Google 翻译也主张,它以翻译日常用语为主,必要时还是要聘用专业的翻译家比较好。由此可知,Google 翻译要取代活生生的翻译家,恐怕还是很难。不过,Google 翻译做出的革新,无疑令人印象深刻,也让人对未来机器翻译的进步充满期待。

  • A Neural Network for Machine Translation, at Production Scale
  • Google Translate is getting really, really accurate
  • How Google translations are getting more natural
  • How Google Translate works, and why it doesn’t measure up
  • Zero-shot translation with Google’s multilingual neural machine translation system

(首图来源:shutterstock)

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。