以 DeepMind WaveNet 技术为基础，Cloud Text-to-Speech 服务正式推出

AI与大数据 11小时前 0

▼

许多 Google 产品（像是 Google Assistant、Google 搜寻、Google 地图等）都内建了高品质的 Text-to-Speech 服务，可以产生如人声般自然的发音。Google 收到许多开发者的意见，表示希望能将 Text-to-Speech 的服务结合到他们的应用程式中，所以 Google 特别将这项 Cloud Text-to-Speech 技术加入 Google 云端平台（Google Cloud Platform，GCP）中。

使用者可以将 Cloud Text-to-Speech 服务运用在不同的情境中：

为电话语音服务（Interactive Voice Response，IVR）中心提供语音回应系统，并启用即时自然语言对话功能。
与物联网设备，如电视、汽车、机器人等进行对话。
将文字格式的媒体内容（如新闻文章、书籍）转为口语形式（如Podcast、有声书）。

Cloud Text-to-Speech 服务提供了 12 种不同语言中的 32 种不同声音供使用者选择。即使是复杂的文字内容，例如姓名、日期、时间、地址等，Cloud Text-to-Speech 服务也可以立刻发出准确且道地的发音，并支援多种音档格式，包含 MP3 和 WAA 等，不仅如此，使用者还可以自己调整音调、语速和音量。

Text-to-Speech 服务结合 DeepMind 技术

Google 也很开心宣布，Cloud Text-to-Speech 服务更以 DeepMind 所建构的原始音档生成模型 WaveNet 为基础，透过运用 WaveNet 将一系列高保真度的声音转化为语音。整体而言，WaveNet 可以合成并产出更自然的语音细节，而且相较于其他 Text-to-Speech 技术所产生的语音内容，WaveNet 所产出的语音内容也更受使用者喜爱。

在 2016 年底，DeepMind 推出了第一版的 WaveNet，透过神经网络架构来训练大量的语音样本并创造原始音频的波形。在训练过程中，神经网络会撷取语音的基本架构，像是语调的连接和语音波形的形状等。当输入特定的文字内容时，经过训练的 WaveNet 模型会产生相对应的语音波形，借由一次产生一个样本的方式，达到比其他方法更高的准确度。

现在，Google 使用的运行于 Google 云端 TPU 基础架构上的更新版 WaveNet。全新且升级的 WaveNet 模型所生成的原始音频波形，比原本的模型快了 1,000 倍，而且只需 50 毫秒即可生成一秒钟的语音讯息。事实上，这个新模型不仅更快速而且具有高保真度，且每秒能创造出 24,000 个音频波形的样本。为了制作出更好、更拟真的音质，Google 也将每个样本的解析度从 8 位元提高到 16 位元。

以 DeepMind WaveNet 技术为基础，Cloud Text-to-Speech 服务正式推出 AI与大数据图2张

借由上述调整，新的 WaveNet 模型可以制作出更自然的语音讯息。在测试过程中，使用者在 1 到 5 级的平均意见分数（Mean-opinion-score，MOS）量表中，给予新版美式英文 WaveNet 语音 4.1 的高分，其中有超过 20% 的人认为比标准的人声更好，而超过 70% 的人肯定它能降低人类语言的隔阂。由于 WaveNet 音讯仅需较少录制音频，就能制作出高音质模型，因此 Google 预计在未来几个月内，将持续改善 WaveNet 音讯的多样性与品质，并提供给云端客户使用。

以 DeepMind WaveNet 技术为基础，Cloud Text-to-Speech 服务正式推出 AI与大数据图3张

Cloud Text-to-Speech 已经协助很多 Google 的客户，像是思科（Cisco）和 Dolphin ONE，提供更好的终端使用者体验。

有了 Cloud Text-to-Speech 服务，你只需要透过点击就能体验到全球最先进的语音科技。想了解更多详细资讯，请参考相关文件或价目表；想要试用公开测试版或体验新的语音服务，请前往 Cloud Text-to-Speech 的网站。

（首图来源：AI资源网）

▼

特别声明本页内容仅供参考，版权终归原著者所有，若有侵权，请联系我们删除。

DeepMind Google

Text-to-Speech 服务结合 DeepMind 技术

相关文章