DeepMind 技术加持,Google 用 AI 改善 Duo 通话遗漏
▼
随着 4G、5G 通讯技术渐渐发展,网络通话越来越盛行。但网络不稳是常态,所以通话时我们不时可能蹦出一句,“你能再讲一遍吗?刚刚网络好像不稳没听到。”
为了提高通话品质,Google 近期在视讯聊天应用Duo 启用新技术 WaveNetEQ,出现音讯遗失时,会判断遗失的音讯资料可能是什么并替代,背后技术支援来自 Google 旗下声名在外的 DeepMind 团队。
(Source:Google)
完整的线上通讯,资料经常分成多块,每块就是一个封包 packet。然而封包从传送方传到接收方的过程,通常不会依序到达,会产生音讯抖动、重叠等问题,或直接遗失,造成音讯空白。
Google 资料显示,Duo99% 通话都有封包遗失、过度抖动或网络延迟。20% 通话遗失超过 3% 音讯,10% 通话丢包率超过 8%,也就是说每次通话都有很多音讯需要替代。
每个视音讯 App 都会用某种方式处理丢包。Google 表示,封包遗失隐藏(PLC)过程可能很难填补 60 毫秒或更长的空白。过去常用演算法是 NetEQ,是 webRTC 音讯技术的两大核心技术之一(另一核心技术是音讯前后处理,包括 AEC、ANS、AGC 等)。webRTC 由 Google 收购 GIPS 再开源,是目前影响力极大的即时音视讯通讯解决方案,但用它处理丢包,大多情况下听起来像机器人或机械重复音。
Google 以大量语音资料训练基于 DeepMind WaveRNN 技术的 WaveNetEQ 模型。训练资料集来自 100 多名、48 种不同语言的志愿者,也就是说可自动填补 48 种语言遗失情况。
WaveNetEQ 是用于语音合成的递回神经网络模型,由两部分组成,即自回归网络(autoregressive network)和条件网络(conditioning network)。自回归网络的作用是保持讯号平稳流动,条件网络控制和影响自回归网络以保持音讯一致性。
Google WaveNetEQ 取代原来的NetEQ PLC 套件,相对于 NetEQ,音质方面无疑有提升,且 WaveNetEQ 模型跑得够快,可在手机执行,如此也能避开用户担心的资料隐私问题。Google 称所有处理都是在装置进行,因 Duo的通话预设就是端到端加密。一旦通话音讯恢复,将无缝切换到现实对话。
不过,WaveNetEQ 替代的内容和时长有限制。目前支援 120 毫秒内空白,之后会逐渐消失并归零;WaveNetEQ 不是生成完整单词,而是简单音节。
目前 WaveNetEQ 已应用到 Pixel 4 手机的 Duo App,Google 表示,正将之推广到其他 Android 手机。
-
Improving Audio Quality in Duo with WaveNetEQ
(本文由 雷锋网 授权转载;首图来源:Google)
▼
特别声明 本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。