DeepMind 技术加持，Google 用 AI 改善 Duo 通话遗漏

AI与大数据 6小时前 0

▼

随着 4G、5G 通讯技术渐渐发展，网络通话越来越盛行。但网络不稳是常态，所以通话时我们不时可能蹦出一句，“你能再讲一遍吗？刚刚网络好像不稳没听到。”

为了提高通话品质，Google 近期在视讯聊天应用Duo 启用新技术 WaveNetEQ，出现音讯遗失时，会判断遗失的音讯资料可能是什么并替代，背后技术支援来自 Google 旗下声名在外的 DeepMind 团队。

（Source：Google）

完整的线上通讯，资料经常分成多块，每块就是一个封包 packet。然而封包从传送方传到接收方的过程，通常不会依序到达，会产生音讯抖动、重叠等问题，或直接遗失，造成音讯空白。

Google 资料显示，Duo99% 通话都有封包遗失、过度抖动或网络延迟。20% 通话遗失超过 3% 音讯，10% 通话丢包率超过 8%，也就是说每次通话都有很多音讯需要替代。

每个视音讯 App 都会用某种方式处理丢包。Google 表示，封包遗失隐藏（PLC）过程可能很难填补 60 毫秒或更长的空白。过去常用演算法是 NetEQ，是 webRTC 音讯技术的两大核心技术之一（另一核心技术是音讯前后处理，包括 AEC、ANS、AGC 等）。webRTC 由 Google 收购 GIPS 再开源，是目前影响力极大的即时音视讯通讯解决方案，但用它处理丢包，大多情况下听起来像机器人或机械重复音。

Google 以大量语音资料训练基于 DeepMind WaveRNN 技术的 WaveNetEQ 模型。训练资料集来自 100 多名、48 种不同语言的志愿者，也就是说可自动填补 48 种语言遗失情况。

WaveNetEQ 是用于语音合成的递回神经网络模型，由两部分组成，即自回归网络（autoregressive network）和条件网络（conditioning network）。自回归网络的作用是保持讯号平稳流动，条件网络控制和影响自回归网络以保持音讯一致性。

Google WaveNetEQ 取代原来的NetEQ PLC 套件，相对于 NetEQ，音质方面无疑有提升，且 WaveNetEQ 模型跑得够快，可在手机执行，如此也能避开用户担心的资料隐私问题。Google 称所有处理都是在装置进行，因 Duo的通话预设就是端到端加密。一旦通话音讯恢复，将无缝切换到现实对话。

不过，WaveNetEQ 替代的内容和时长有限制。目前支援 120 毫秒内空白，之后会逐渐消失并归零；WaveNetEQ 不是生成完整单词，而是简单音节。

目前 WaveNetEQ 已应用到 Pixel 4 手机的 Duo App，Google 表示，正将之推广到其他 Android 手机。

Improving Audio Quality in Duo with WaveNetEQ

（本文由雷锋网授权转载；首图来源：Google）

▼

特别声明本页内容仅供参考，版权终归原著者所有，若有侵权，请联系我们删除。

相关文章