效果是 MP3 十倍,Meta 开发全新 AI 语音压缩技术

效果是 MP3 十倍,Meta 开发全新 AI 语音压缩技术

为了让低频宽网络也能传送高品质语音档案,Meta 近日公布一项 AI 语音压缩技术,其压缩效果是 MP3 的十倍,使低频宽网络传送声音档案时不会发生断断续续、失声等情况。

Meta 表示,压缩技术是当今网络重要一环,因为它可使人们更轻易的传送高画质照片、语音讯息等。然而,传送这些多媒体讯息需要充足的频宽和储存空间,尤其是在未来的元宇宙世代,将为网络频宽带来更大的负担;业界因而需要效果更好、能频宽限制的压缩技术。

为此,Meta 开发一项 AI 语音压缩技术。Meta 旗下的基础 AI 研究(Fundamental AI Research,FAIR)部门建立一个名为“EnCodec”的 AI 训练模型,其涵盖三个部分,分别为编码器(encoder)、量化器(quantizer)及解码器。

效果是 MP3 十倍,Meta 开发全新 AI 语音压缩技术 AI与大数据 图2张

(Source:Meta)

首先是编码器,其功用是可以将原始资料转成更高维度以及较低影格速率(frame rate)的格式。其次是量化器,不仅能压缩格式资料,还可以经由 AI 训练将资料压缩至计划团队想要的大小,且还保留最重要的资讯以重建原始讯号;其角色类似于 MP3 档,能储存或在网络上传送。

最后则是解码器,能将压缩讯息重建为类似原始音讯的波形。研究人员解释,要在低位元速率(bit rates)下完美重建压缩讯号是很困难的,所以团队利用鉴别器(Discriminator)提升生成样本(generated sample)的品质;鉴别器主要功用是负责比对原始样本和生成样本的差异。

效果是 MP3 十倍,Meta 开发全新 AI 语音压缩技术 AI与大数据 图3张

(Source:Meta)

总之,研究小组表示,经过测试后,EnCodec 在各种频宽及音讯品质上,都能即时编码及解码,且 EnCodec(6kbps)压缩率是 MP3(64kbps)的近 10 倍。虽然以往也有人尝试以神经网络压缩音讯,但 Meta 是首个将此技术用于 48kHz(CD 音质)的立体声音。

  • Using AI to compress audio files for quick and easy sharing

(首图来源:Meta)

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。