不方便开声音也没关系，Pixel 4 Live Caption 功能把任何语音即时转成字幕

AI与大数据 17小时前 0

▼

你有没有这种经验，当身处公共场合，收到朋友传来的影片，但不方便播出声音而又没有耳机，只能看着影片干瞪眼，不知道影片中人在说什么。现在 Google Pixel 4 智慧手机导入 Live Caption 功能，可将任何语音即时转成字幕，解决尴尬的问题。

影片语音也能用“看”的

影片或语音档案字幕不但对听障朋友来说格外重要，对于所有人来说也都有所用处，比方在公共场合、会议中、夜深人静时，我们都常在关闭声音的情况下看影片，然而并非所有影片都有字幕，且不同 App 的字幕功能也不尽相同，导致许多短片、声音讯息、Podcast 等内容无法使用字幕。

为了解决这个问题，Google 为 Android 推出 Live Caption 功能，能在装置直接将影片、音讯档案语音转成字幕，更棒的是转换过程完全在装置完成，不需网络连线，因此不但不需负担数据资费，也能保护隐私并降低延迟。

▲ Live Caption 解决在静音状况下看影片的字幕问题。

▲当需要在不方便放出声音的场合看影片，又要听语音内容时。（Source：影片截图，下同）

▲这时候只要按下 Live Caption 按键。

▲系统就能将影片语音即时转成字幕。

透过 AI 强化翻译

Live Caption 会在运作时调用 3 个装置执行的深度学习模型，包括辨识语音的递归神经网络（Recurrent Neural Network，RNN）序列转导模型（Sequence Transduction Model）、辨识标点符号的文字基础递归神经网络，以及用于分类语音事件的卷积神经网络（Convolutional Neural Network，CNN），这种模型的协同运作下，可以提供完整的字幕，并能加注标点符号，以使用 [APPLAUSE]、[MUSIC] 等标签表示鼓掌、音乐等背景音效。

有趣的是，语音事件分类模型不只用于标示背景音效，还能分辨当下是否有语言，因此系统能在有语言出现时才辨识，如此一来就能大量降低整体运算需求，发挥降低记忆体用量与耗电量的效果。

至于辨识标点符号的模型，则是在系统将语音转为文字后，才开始分析文字，并针对最近辨识的句子预测标点符号，如果下一次语音辨识结果没有更改预测条件，就能保留先前预测，同样发挥节省电力消耗的功能，并加快辨识速度。

▲Live Caption 会使用 3 种深度学习模型完成语音转文字。（Source：Google，下同）

▲Live Caption 属于系统层功能，因此可跨越不同 App 使用。

目前英文版 Live Caption 可在 Pixel 4 和 Pixel 4 XL 等手机使用，并会在今年下放到 Pixel 3 系列，Google 也计划将功能推广到其他 Android 装置，并支援更多语言，让更多人享用此功能。

（本文由 T客邦授权转载；首图来源：Google AI）

延伸阅读：

Google 人工智慧录音 App，不连网就能即时生成逐字稿

▼

特别声明本页内容仅供参考，版权终归原著者所有，若有侵权，请联系我们删除。

Google Pi 手机

影片语音也能用“看”的

透过 AI 强化翻译

延伸阅读：

相关文章