Google 翻译愈来愈聪明,错误建议骗不到它

Google 翻译愈来愈聪明,错误建议骗不到它

Google 中国台湾董事总经理简立峰说,Google 翻译比以前好用太多了!就算有人恶作剧,刻意在“提出修改建议”栏位写下错的翻译,也不会影响系统的运作。

简立峰解释,Google 翻译有学习及资料库的功能,不断累积经验,错误也是一种经验,除非几乎所的人都在“修改建议”栏写下一模一样的错误,才会积非成是,但事实上这种情况并不可能发生。

他认为,虽然简体中文、繁体中文有些相同的字词有着不同的意义,或相同的字已衍生出新的意义,但因简体、繁体中文语法相同,在机器翻译上仍采用一套系统,可视为专有名词,透过学习建立资料库来校正。

其实不只简体中文、繁体中文的语法相同,他透露,日文、韩文在机器翻译上也可算是语法相同,用同一套系统。

他指出,机器学习是很重要的议题,大家在讨论 Google 翻译的学习功能之际,也会联想到人工电脑 AlphaGo 打败真人世界棋王。现在也有人提出让 AlphaGo 打 AlphaGo,学习能力可以更快的说法,就像是金庸小说“华山论剑”里全真派的周伯通,用自己的左手和右手对打,使出的“左右互搏”。

Google 翻译的发展进程快速,10 年前,Google 推出翻译服务,并以片语式机器翻译(Phrase-Based Machine Translation)做为主要运算方式。从过去仅支援几种语言,到现在可支援 103 种语言,且每天翻译超过 1,400 亿个单词,Google 翻译的品质有了很大的进展。

数年前,Google 采用递归神经网络(Recurrent Neural Networks)将句子视为一个单位进行翻译,之后的片语式机器翻译方式(PBMT),则是将句子切割成单独的字和词组做独立翻译。

过去,为翻译任意两种语言,Google 需要建构多个不同的翻译系统,运算成本相当可观。相较于过去的片语机器学习(PBMT),神经机器翻译(NMT)仅需要较少的系统架构设计。刚开始推出神经机器翻译时,这两种翻译方式的精准度不相上下。

为改善 NMT 翻译品质,研究人员提出许多技术来解决,这当中包括透过模拟调校模型(external alignment model) 处理罕见字词、使用“注意”(attention) 来对准输入词和输出词,以及将词拆解成更小的单元以应对罕见字词等。

Google 神经机器翻译(GNMT) 将中文句子翻译成英文句子的过程,透过编码器(Encoder) ,首先,GNMT 将中文句子的每一个单词进行向量(vector) 编码,而每个向量将显示出目前为止单词被读取到的所有意义。

在读取完整句子后,解码器(Decoder) 就会开始运作,一次产生一个英语句子中的一个词。

注意功能是为了每一步都产出正确的词,解码器将针对编码中文向量里最相关的英文单词权重分布(weighted distribution) 进行解码。

(作者:潘智义;首图来源:shutterstock)

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。