Google 发表音讯分离技术,可抽离影片中各人物的语音

Google 发表音讯分离技术,可抽离影片中各人物的语音

Google 发表了名为 Audio-Visual Speech Separation 的音讯分离技术,能够透过分析影像以及声音的特征,将影片中各人物所说的话分离成独立音轨,如此一来就能让观众在双人同时讲话的影片中,自由选择要听谁的语音,此外这项技术也能用来分离背景杂音,强化视讯通话时的音质表现。

人工智慧协助分析

当人类专注于聆听某个人说话时,头脑会“自动调低”其他人与环境杂音的音量,让人可以在吵杂的场合也能彼此交谈。然而要透过电脑个别人物的语音单独抽离出来,仍然是个相当艰钜的挑战。

Google 的软件研发团队在《Looking to Listen at the Cocktail Party》一文中,提出了透过深度学习与声音-影像模型的方式分离语音的技术,能够强化影片中特定人物的语音,并消除其他人的声音与环境音。

这项技术最大的特色,在于它会同时分析影片中的影像与声音,透过辨识人物表情的变化,提升辨识精准度,同时它也能应用于一般单声道影片,系统会自动辨识影片中的人物与声音,观众需要做的只要点选影片中出现的人脸,就能只听到他的声音。

在研发过程中,团队引用了 10 万支 YouTube 只有单一讲者的无干扰演讲影片,并将这些总时数长达 2,000 小时的影片混入其他演讲影片与背景杂音,以用于训练多重串流卷积神经网络(Multi-Stream Convolutional Neural Network),让人工智慧发挥分离音讯的效果。

Google 发表音讯分离技术,可抽离影片中各人物的语音 AI与大数据 图2张

▲Audio-Visual Speech Separation技术可以将影片中不同人的声音分离。(Source:Looking to Listen at the Cocktail Party)

Google 发表音讯分离技术,可抽离影片中各人物的语音 AI与大数据 图3张

▲该技术不但会分析声音,也会分析影片中人物的嘴型与表情。(Source:Looking to Listen at the Cocktail Party)

Google 发表音讯分离技术,可抽离影片中各人物的语音 AI与大数据 图4张

▲在人工智慧的协助下,这项技术能够分离多个人物的语音与背景杂音。(Source:Google Research Blog)

实际效果展示

开发团队也公布了许多 Audio-Visual Speech Separation 的展示影片,读者可以从下列影片中看出这项技术的效果确实十分出色。

▲ 随着影片的播放,可以看到切换到不同音轨时,就只会出现指定人物的语音。

▲ 原始影片为 2 人激烈争论,在 Audio-Visual Speech Separation 的处理下,可以让观众选择只听右方主播的声音。

▲ Audio-Visual Speech Separation 也能用来消除背景杂音。

▲ 这项技术也可以应用于强化视讯通话的音质表现。

开发团队表示,Audio-Visual Speech Separation 除了有助于让观众选择想要聆听的人物声音之外,也能用来消除背景杂音,强化影片与视讯通话的音质表现,此外,将音讯分离后也有助于提升语音辨识系统自动产生字幕的精确度,适用范围相当广泛,Google 也在研究如何应用于其他 Google 产品上,或许在不久的未来就能在更多地方看到这项技术。

(本文由T客邦 授权转载;首图来源:pixabay)

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。