不方便开声音也没关系,Pixel 4 Live Caption 功能把任何语音即时转成字幕

不方便开声音也没关系,Pixel 4 Live Caption 功能把任何语音即时转成字幕

你有没有这种经验,当身处公共场合,收到朋友传来的影片,但不方便播出声音而又没有耳机,只能看着影片干瞪眼,不知道影片中人在说什么。现在 Google Pixel 4 智慧手机导入 Live Caption 功能,可将任何语音即时转成字幕,解决尴尬的问题。

影片语音也能用“看”的

影片或语音档案字幕不但对听障朋友来说格外重要,对于所有人来说也都有所用处,比方在公共场合、会议中、夜深人静时,我们都常在关闭声音的情况下看影片,然而并非所有影片都有字幕,且不同 App 的字幕功能也不尽相同,导致许多短片、声音讯息、Podcast 等内容无法使用字幕。

为了解决这个问题,Google 为 Android 推出 Live Caption 功能,能在装置直接将影片、音讯档案语音转成字幕,更棒的是转换过程完全在装置完成,不需网络连线,因此不但不需负担数据资费,也能保护隐私并降低延迟。

▲ Live Caption 解决在静音状况下看影片的字幕问题。

不方便开声音也没关系,Pixel 4 Live Caption 功能把任何语音即时转成字幕 AI与大数据 图2张

不方便开声音也没关系,Pixel 4 Live Caption 功能把任何语音即时转成字幕 AI与大数据 图3张

不方便开声音也没关系,Pixel 4 Live Caption 功能把任何语音即时转成字幕 AI与大数据 图4张

透过 AI 强化翻译

Live Caption 会在运作时调用 3 个装置执行的深度学习模型,包括辨识语音的递归神经网络(Recurrent Neural Network,RNN)序列转导模型(Sequence Transduction Model)、辨识标点符号的文字基础递归神经网络,以及用于分类语音事件的卷积神经网络(Convolutional Neural Network,CNN),这种模型的协同运作下,可以提供完整的字幕,并能加注标点符号,以使用 [APPLAUSE]、[MUSIC] 等标签表示鼓掌、音乐等背景音效。

有趣的是,语音事件分类模型不只用于标示背景音效,还能分辨当下是否有语言,因此系统能在有语言出现时才辨识,如此一来就能大量降低整体运算需求,发挥降低记忆体用量与耗电量的效果。

至于辨识标点符号的模型,则是在系统将语音转为文字后,才开始分析文字,并针对最近辨识的句子预测标点符号,如果下一次语音辨识结果没有更改预测条件,就能保留先前预测,同样发挥节省电力消耗的功能,并加快辨识速度。

不方便开声音也没关系,Pixel 4 Live Caption 功能把任何语音即时转成字幕 AI与大数据 图5张

不方便开声音也没关系,Pixel 4 Live Caption 功能把任何语音即时转成字幕 AI与大数据 图6张

目前英文版 Live Caption 可在 Pixel 4 和 Pixel 4 XL 等手机使用,并会在今年下放到 Pixel 3 系列,Google 也计划将功能推广到其他 Android 装置,并支援更多语言,让更多人享用此功能。

(本文由 T客邦 授权转载;首图来源:Google AI)

延伸阅读:

  • Google 人工智慧录音 App,不连网就能即时生成逐字稿

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。