Meta AI 新模型像吃翻译年糕,可语音、文字相互翻译成百种语言
▼
为了开发能够理解一系列不同语言的 AI,Meta 新建立 AI 模型“SeamlessM4T”,它可以翻译和转录近 100 种语言的语音和文字,并称 SeamlessM4T 代表了 AI 进行语音和文字互转的重大突破,使不同语言的人能够沟通。
SeamlessM4T 可说是 Meta“绝不抛下任何语言”(No Language Left Behind,NLLB)专案和通用语音翻译工具(Universal Speech Translator,UST)专案的意志继承者,建立在大规模多语言语音(Massively Multilingual Speech,MMS)基础上,能够翻译并有语音转语音、语音转文字、文字转语音、文字转文字 4 种模式,支援近 100 种语言。
▲ Meta 执行长祖克柏(Mark Zuckerberg)介绍 SeamlessM4T 模型 4 种模式。
在开发过程中,Meta 从网络上抓取公开的文字(约数百亿个句子)和语音(约 400 万小时)做为训练资料,并称挖掘而来的资料不受版权保护,主要是开源或取得许可的内容。
Meta 使用抓取的语音和文字建立 SeamlessM4T 的训练资料组,内部称为“SeamlessAlign”。研究人员将 44.3 万个小时的语音和文字配对,并建立 2.9 万个小时“语音转语音”配对内容,如此一来教会 SeamlessM4T 如何在语音和文字之间相互翻译。
Meta 称以内部基准进行测试下,与目前最先进的语音转译模型相比,SeamlessM4T 在语音转文字的处理表现最好,归功于训练资料组有着语音和文字资料的丰富组合,Meta 认为这使 SeamlessM4T 比纯语音和纯文字的翻译模型更具优势。
SeamlessM4T 看起来相当强大,但并非十全十美。Meta 透露该模型翻译中性字词翻译,容易过度概括成男性,且在涉及男性(如出现 he 等名词)的英文翻译时表现较其他语言好,推测可能是因训练资料有过度的男性词汇导致这种结果。
Meta 并不是唯一一家投入资源开发 AI 翻译和转译工具的公司,如微软、OpenAI、Google、亚马逊以及许多新创公司也都参与此一领域,但 Meta 强调 SeamlessM4T 将翻译和转译功能整合至单一模型,展现其在 AI 领域的野心。
Meta 一直以开源方式向开发者和研究人员发布 AI 模型,除了上述的 SeamlessM4T,日前推出可用文字创造音乐的 AudioCraft 模型,更重要的还有提供大型语言模型 Llama 2 的开源使用。
- Meta releases an AI model that can transcribe and translate close to 100 languages
(首图来源:Meta AI)
延伸阅读:
- Meta 开源大型语言模型 Llama 2,结盟微软、高通对抗 GPT-4
- 支援全球逾千种语言,Meta 发表 AI 新模型助语音、文字互转
- Meta AI 新技术可翻译口说对话,祖克柏也能听懂台籍员工说的台语
- Meta 开源 AI 模型支援 200 种语言,身处元宇宙也能吃下“翻译年糕”
- Meta 用 AI 开发“全球通用语言翻译工具”,要打造全球语言互通的元宇宙
▼
特别声明 本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。