DeepMind 技术加持,Google 用 AI 改善 Duo 通话遗漏

DeepMind 技术加持,Google 用 AI 改善 Duo 通话遗漏

随着 4G、5G 通讯技术渐渐发展,网络通话越来越盛行。但网络不稳是常态,所以通话时我们不时可能蹦出一句,“你能再讲一遍吗?刚刚网络好像不稳没听到。”

为了提高通话品质,Google 近期在视讯聊天应用Duo 启用新技术 WaveNetEQ,出现音讯遗失时,会判断遗失的音讯资料可能是什么并替代,背后技术支援来自 Google 旗下声名在外的 DeepMind 团队。

DeepMind 技术加持,Google 用 AI 改善 Duo 通话遗漏 AI与大数据 图2张

(Source:Google

完整的线上通讯,资料经常分成多块,每块就是一个封包 packet。然而封包从传送方传到接收方的过程,通常不会依序到达,会产生音讯抖动、重叠等问题,或直接遗失,造成音讯空白。

Google 资料显示,Duo99% 通话都有封包遗失、过度抖动或网络延迟。20% 通话遗失超过 3% 音讯,10% 通话丢包率超过 8%,也就是说每次通话都有很多音讯需要替代。

每个视音讯 App 都会用某种方式处理丢包。Google 表示,封包遗失隐藏(PLC)过程可能很难填补 60 毫秒或更长的空白。过去常用演算法是 NetEQ,是 webRTC 音讯技术的两大核心技术之一(另一核心技术是音讯前后处理,包括 AEC、ANS、AGC 等)。webRTC 由 Google 收购 GIPS 再开源,是目前影响力极大的即时音视讯通讯解决方案,但用它处理丢包,大多情况下听起来像机器人或机械重复音。

Google 以大量语音资料训练基于 DeepMind WaveRNN 技术的 WaveNetEQ 模型。训练资料集来自 100 多名、48 种不同语言的志愿者,也就是说可自动填补 48 种语言遗失情况。

WaveNetEQ 是用于语音合成的递回神经网络模型,由两部分组成,即自回归网络(autoregressive network)和条件网络(conditioning network)。自回归网络的作用是保持讯号平稳流动,条件网络控制和影响自回归网络以保持音讯一致性。

Google WaveNetEQ 取代原来的NetEQ PLC 套件,相对于 NetEQ,音质方面无疑有提升,且 WaveNetEQ 模型跑得够快,可在手机执行,如此也能避开用户担心的资料隐私问题。Google 称所有处理都是在装置进行,因 Duo的通话预设就是端到端加密。一旦通话音讯恢复,将无缝切换到现实对话。

不过,WaveNetEQ 替代的内容和时长有限制。目前支援 120 毫秒内空白,之后会逐渐消失并归零;WaveNetEQ 不是生成完整单词,而是简单音节。

目前 WaveNetEQ 已应用到 Pixel 4 手机的 Duo App,Google 表示,正将之推广到其他 Android 手机。

  • Improving Audio Quality in Duo with WaveNetEQ

(本文由 雷锋网 授权转载;首图来源:Google)

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。