进击的 Google 翻译──透过神经机器翻译系统，Google 翻译可望与人类译者并驾齐驱？

AI与大数据 12小时前 0

▼

自 2001 年 Google 推出线上翻译系统以来，该系统从原本仅能翻 9 种语言、进步到能翻 103 种语言，以前常常发生的词语排列不合文法和歧义理解有误等问题，如今也藉着采用新的翻译系统而多有改善。现在，Google 翻译每日要翻译 1,400 亿以上的单字，并服务数百万的用户。

究竟 Google 翻译是如何运作，又进行了什么改革，才有如此出色的能力？Google 翻译又是否真的已经可以取代有血有肉的翻译员？以下便针对 Google 翻译的系统沿革和优缺点，进行简单的说明。

Google 翻译的基础和早期系统架构：机器学习和片语式机器翻译

Google 翻译是以机器学习（machine learning）为基础来应付语言的复杂多变。机器学习多运用在人工智慧上，指机器从已知资料中分析出规律，再把规律套用在新资料上，并在不断套用的过程中提高效率或进行修正。藉着机器学习，Google 翻译让电脑自己找出不同语言的文法规则，省下慢慢教电脑文法的麻烦。

学会文法后，接下来就面临翻译正确性的问题。早期的 Google 翻译要翻译句子时，会先将原文拆成单字或片语，接着利用统计学和 Google 收集的大量现存翻译资料，分别选出这些单字片语最普遍的译法，再依照文法重组成句子。这种类似逐字翻译的演算法，称作片语式机器翻译（phrase-based machine translation，以下简称 PBMT）。

PBMT 即使是当时先进的机器翻译系统，但免不了许多缺点。首先，统计出来最有可能的翻译，有时不是最正确的。比方说，假如大多数资料把 took off 译作“起飞”，Google 翻译便很有可能把 I took off my clothes（我脱掉我的衣服）译作“我起飞我的衣服”。其次，PBMT 以翻译单字片语为主，翻译句子的能力有其极限。当句子长、结构复杂、有歧义（ambiguity）或是有文法上的例外的时候，PBMT 便容易翻错。最后，若没有某两种语言的直接互译资料，PBMT 必须透过多次转译，才能翻译完成，而这个过程使得效率和翻译的正确性大打折扣。

由于有这些缺点，加上 Google 翻译的资料库以英文为主（不论是原文或译文），当翻译资料稀少或遇到和英文文法差异大的语言时，Google 翻译的出错率就会升高。为了翻得更快更好，Google 翻译的改进势在必行。

Google 翻译大革新：神经机器翻译和零数据翻译

约在采用 PBMT 系统 10 年后，Google 翻译于 2016 年宣布今后会以神经机器翻译（Google Neural Machine Translation system，以下简称 GNMT）取代 PBMT，并声称翻译会变得更准确、通顺。
GNMT 的特色是以句子为单位进行翻译。翻译句子时，它会将句中每个字编码成向量，该向量代表着这个字和它之前所有字合在一起的意思。比方说，句子里第 3 个字的向量代表第一、第二个字和它自己本身合起来的意义。这个含意是系统才可以解读的，而非人类可以理解。等到该句的向量全部被编码出来，GNMT 会再进行解码。每次解码不会只针对一个向量，而是会连其余向量都一起纳入考量，以生成对应的翻译。总结来说，比起把句子拆成单字后独立翻译的 PBMT，GNMT 更加重视句子的结构和字词间的关系，能更正确的分析全句意义再进行翻译。

Google 翻译团队声称，采用 GNMT 后，几个主要语言的翻错率降低了 55% 到 58%。除此之外，在 2016 年时的翻译测验里，评分员给了 GNMT 接近人类译者的分数。以上事例皆显示 GNMT 比 PBMT 有更佳的表现，甚至可说是非常“人类”。

进击的 Google 翻译──透过神经机器翻译系统，Google 翻译可望与人类译者并驾齐驱？ AI与大数据图2张

▲ 人类、GNMT 和 PBMT 的翻译对照。（Source：Google Research Blog）

进击的 Google 翻译──透过神经机器翻译系统，Google 翻译可望与人类译者并驾齐驱？ AI与大数据图3张

▲人类评分员评比人类、GNMT 和 PBMT 翻译品质分数表。分数从最低分 0 分到满分 6 分，代表从“无意义的乱翻”到“完美的翻译”。（Source：Google Research Blog）

另外，Google 翻译的团队还发现，对 GNMT 进行改良后，GNMT 便能在没有 A 语言和 B 语言互译资料的情况下进行该两种语言的直接翻译，也就是实现零数据翻译（zero-shot translation），这是以往依赖统计资料的 PBMT 所难以达成的。

Google 翻译是如何做到零数据翻译的？先前有提到，GNMT 会把句子编码成向量。由于向量代表句子的含意，而同一句话几乎不会因为语言不同而改变太大的意思，因此理论上不同语言的同一句话会拥有相近的向量。Google 翻译改良 GNMT 时，让两种语言互译的翻译知识（translation knowledge）能在翻译其他语言时做为参考。如此一来，GNMT 能有效率的掌握同一句话在不同语言间的向量，并迅速找到相对应的译文。举例来说，如果 Google 翻译有同一句话英文翻成韩文和英文翻成日文的资料，想要进行它从没做过的日韩翻译时，只要有了该句日文版本的向量，它便能很快地找到数据相近的韩文版本的向量，期间完全不用转译成英文。这使得 GNMT 在翻译效率和正确性两方面都胜出早期的 PBMT。

Google 翻译取代人类翻译？

面对翻译水准大大提升的 Google 翻译，以翻译为生的人可能会担心丢了饭碗。其实，现今的 Google 翻译依然有不足之处。比方说，它会漏字、不太会翻少见的用语或法律条文之类复杂的文体，也没有办法翻得像人类一样有“诗意”或斟酌译文的语气和风格等。Google 翻译也主张，它以翻译日常用语为主，必要时还是要聘用专业的翻译家比较好。由此可知，Google 翻译要取代活生生的翻译家，恐怕还是很难。不过，Google 翻译做出的革新，无疑令人印象深刻，也让人对未来机器翻译的进步充满期待。

A Neural Network for Machine Translation, at Production Scale
Google Translate is getting really, really accurate
How Google translations are getting more natural
How Google Translate works, and why it doesn’t measure up
Zero-shot translation with Google’s multilingual neural machine translation system

（首图来源：shutterstock）

▼

特别声明本页内容仅供参考，版权终归原著者所有，若有侵权，请联系我们删除。

Google

Google 翻译的基础和早期系统架构：机器学习和片语式机器翻译

Google 翻译大革新：神经机器翻译和零数据翻译

Google 翻译取代人类翻译？

相关文章