支援全球逾千种语言,Meta 发表 AI 新模型助语音、文字互转

支援全球逾千种语言,Meta 发表 AI 新模型助语音、文字互转

世界上许多语言都有消失的可能性,目前语音辨识和语音生成技术的局限恐怕加速此一趋势。Facebook 母公司 Meta 新发表的 AI 模型,希望借此帮助大家以自己习惯的语言,更轻松地获取资讯。

Meta 新的大规模多语言语音(Massively Multilingual Speech,MMS)模型拓展了语音、文字相互转换的应用范围,从最初的 100 种语言,至今已能转换超过 1,100 种语言,还能够辨识超过 4,000 种口语语言。

Meta 称这项技术已有许多应用案例,从 VR、AR 再到讯息服务都有,用户不仅能够使用偏好的语言操作,更能理解每个人的声音。

过去最大型的语音资料库最多仅涵盖 100 种语言,因此开发新技术所面临的第一项挑战即是收集数千种语言的语音训练资料。为此 Meta 使用翻译成多种语言、译文已被广泛阅读和研究的宗教经典如《圣经》,作为语言的文字训练资料。

圣经译文有多种语言的公开录音档,而 Meta 创造的资料集,收集超过 1,100 种语言的《新约圣经》有声读物资料集,平均为每种语言提供 32 小时的语音训练资料,后续又加入其他未标记的基督教有声读物后,可用的语言训练资料涵盖超过 4,000 种语言。

虽然资料集收录的声音以男性居多,但 Meta 的测试成果显示,不论是男性或女性的声音,这个语音模型皆能同等准确地辨识。此外,上述的语言训练资料大多为宗教相关的内容,但 Meta 分析,这不会使语音模型倾向产生更多宗教性质的语言。

▲ Meta 展示以 MMS 模型为基础,帮助语音转换文字的功能。

Meta 的 AI 技术在语音辨识和翻译等领域多有着墨,去年曾为以口语表达、缺少标准书写文字的“闽南语”打造一个史无前例的 AI 技术翻译系统,其中更有台籍研究员陈鹏仁参与开发。这不仅贴近中国台湾民众日常熟悉的口语,也让不懂“闽南语”的祖克柏(Mark Zuckereberg)能听懂陈鹏仁想表达的意思。

Meta 开源 MMS 模型和原始码,让研究人员能够以现有的工作成果为基础继续开发,一同保存全球的语言。与此同时,Meta 也继续扩增 MMS 模型的涵盖范围,支援更多语言的辨识和转换,并努力克服现有语音技术难以处理方言的挑战。

  • Introducing speech-to-text, text-to-speech, and more for 1,100+ languages

(首图来源:影片截图)

延伸阅读:

  • Meta 首度公开自研 AI 晶片,估 2025 年正式问世
  • AI 生成更接近人类感知,Meta 开源新模型 ImageBind
  • 影像分析新利器,Meta 新发表影像分割 AI 模型

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。