只需 3 秒音讯，微软新 AI 模型就能模仿某人声音念稿

AI与大数据 8小时前 0

▼

很多人见识过有心人用 Deepfake 技术合成超逼真假影片的能耐，如今 AI 深度学习技术又进一步模拟特定人物声音展现强大威力。5 日微软研究人员宣布推出 VALL-E 全新文字转语音（Text-to-Speech）AI 人工智慧模型，只要喂给它某人 3 秒钟音讯，模型就能模拟出声音、语调及情绪讲出任何话。

VALL-E 是“神经编码解码器语言模型”（Neural Codec Language Model），基于 Meta 2022 年 10 月宣布的 EnCodec 技术打造。VALL-E 从文字与声音提示产生个别音讯编码解码器程式码，与一般透过操控波形合成语音的常见文字转语音法不同。新模型主要分析人如何发音，并透过 EnCodec 将资讯分解成称为“标记”（Token）的个别元件。

▲微软VALL-E模型架构图。（Source：GitHub）

最令人惊讶的是，模型会使用训练资料与“学会”的声音比较，用 3 秒范例音讯声调念出范例音讯以外字句。换言之，它可从网络撷取特定人物 3 秒钟说话声，就可学会其语调讲天马行空的话。

为了让 VALL-E 学会语音合成能力，微软使用 LibriLight 音讯库训练，内含 7 千多人约 6 万小时说话内容。VALL-E 范例网站，微软提供数十个 AI 模型执行范例音讯，提供 VALL-E 必须模拟学习的 3 秒钟说话者提示音讯，以及同说话者说特定字句的对照音讯等。

连声音、语调甚至环境音都能模拟，恐成 Deepfake 后诈编利器

神奇的是，VALL-E 不但能用某人说话方式、声调及情绪模仿他人说话，甚至还可模拟范例音讯的背景“声音环境”（Acoustic Environment）。换言之，如果范例音讯来自电话讲话内容，模型会在合成输出模拟讲电话的声音与频率属性，一听就知道是在讲电话。

可见 VALL-E 应用层面很广，如高品质文字转语音应用开发、语音编辑及音讯内容创建等。所谓语音编辑是指某人录音可转成逐字稿编辑和更改，也就是用某人声音念逐字稿。至于音讯内容创建，可搭配 GBT-3 等 AI 模型做到。

见识 VALL-E 的能耐后，让人不免想到“误入歧途”的 Deepfake，所以此模型也很有可能沦为有心人开始网络恶作剧或诈骗攻击的利器。微软特别开发出区分音讯是否来自 VALL-E 合成的检测模型，微软还制定 AI 原则，严格限制任何 VALL-E 实作必须遵循该准则，以避免遭恶意滥用险。

Microsoft’s new AI can simulate anyone’s voice with 3 seconds of audio

（首图来源：PAI）

▼

特别声明本页内容仅供参考，版权终归原著者所有，若有侵权，请联系我们删除。

AI Meta 人工智慧微软

连声音、语调甚至环境音都能模拟，恐成 Deepfake 后诈编利器

相关文章