只看手势动作，AI 就能完美重现音乐

AI与大数据 32分钟前 0

▼

会玩乐器的人在生活中简直自带光环！不过，学会一门乐器也真的很难，多少人陷入过从入门到放弃的死循环。但是，不会玩乐器，就真的不能演奏出好听的音乐了吗？

最近，麻省理工学院（MIT）联合 MIT-IBM Watson 人工智慧（AI）实验室（MIT-IBM Watson AI Lab）共同开发出了一款 AI 模型Foley Music，它可以根据演奏手势完美还原乐曲原声！而且还是不分乐器的那种，小提琴、钢琴、乌克丽丽、吉他，统统都可以。

只要拿起乐器，就是一场专业演奏会！如果喜欢不同音调，还可以对音乐风格进行编辑，A 调、F 调、G 调均可。

这项名为《Foley Music：Learning to Generate Music from Videos》的技术论文已被 ECCV 2020 收录。

接下来，我们看看 AI 模型是如何还原音乐的？

如同为一段舞蹈配乐需要了解肢体动作、舞蹈风格一样，为乐器演奏者配乐，同样需要知道其手势、动作以及所用乐器。

如果给定一段演奏影片，AI 会自动锁定目标对象的身体关键点（Body Keypoints），以及演奏的乐器和声音。

（Source：论文，以下同）

身体关键点：由 AI 系统中的视觉感知模组（Visual Perception Model）来完成。它会透过身体姿势和手势的两项指标来反馈。一般身体会提取 25 个关键 2D 点、手指 21 个 2D 点。

乐器声音提取：采用音频表征模组（Audio Representation Model），该模组研究人员提出了一种音乐数位介面（Musical Instrument Digital Interface，简称 MIDI）的音频表征形式。它是 Foley Music 区别于其他模型的关键。

研究人员介绍，对于一个 6 秒中的演奏影片，通常会生成大约 500 个 MIDI 事件，这些 MIDI 事件可以轻松导入到标准音乐合成器以生成音乐波形。

在完成资讯提取和处理后，接下来，视-听模组（Visual-Audio Model）将整合所有资讯并转化，生成最终相匹配的音乐。

我们先来看一下它的完整架构图：主要由视觉编码、MIDI 解码和 MIDI 波形图输出 3 个部分构成。

视觉编码：将视觉资讯进行编码化处理，并传递给转换器 MIDI 解码器。从影片帧中提取关键坐标点，使用 GCN（Graph-CNN）捕获人体动态随时间变化产生的潜在表示。

MIDI 解码器：透过 Graph-Transfomers 完成人体姿态特征和 MIDI 事件之间的相关性进行建模。Transfomers 是基于编解码器的自回归生成模型，主要用于机器翻译。在这里，它可以根据人体特征准确预测 MIDI 事件的序列。

MIDI 输出：使用标准音频合成器将 MIDI 事件转换为最终的波形。

研究人员证实 Foley Music 远优于现有其他模型。在对比试验中，他们采用了 3 种数据集对 Foley Music 进行了训练，并选择了 9 种乐器，与其他 GAN-based、SampleRNN 和 WaveNet 3 种模型进行对比评估。

其中，数据集分别为 AtinPiano、MUSIC 及 URMP，涵盖了超过 11 个类别的大约 1,000 个高品质的音乐演奏影片。乐器则为风琴、贝斯、低音管、大提琴、吉他、钢琴、低音号、乌克丽丽和小提琴，其影片长度均为 6 秒。以下为定量评估结果：

可见，Foley Music 模型在贝斯（Bass）乐器演奏的预测性能最高达到 72%，而其他模型最高仅为 8%。

另外，从以下 4 个指标来看，结果更为突出：

黄X为 Foley Music 模型，它在各项指标上的性能表现远远超过其他模型，在正确性、噪音和同步性三项指标上最高均超过了 0.6，其他最高不足 0.4，且 9 种乐器均是如此。

另外，研究人员还发现，与其他基准系统相比，MIDI 事件有助于改善声音品质、语义对齐和时间同步。

另外，该模型的优势还在于它的可扩展性。MIDI 表示是完全可解释和透明的，因此可以对预测的 MIDI 序列进行编辑，以生成 A、G、F 调不同风格音乐。如果使用波形或者频谱图做为音频表示形式的模型，这个功能是不可实现的。

最后研究人员在论文中表明，此项研究透过人体关键点和 MIDI 表示很好地建立视觉和音乐信号之间的相关性，实现了音乐风格的可拓展性。为当前研究影片和音乐联系拓展出一种更好的研究路径。

（本文由雷锋网授权转载；首图来源：pixabay）

▼

特别声明本页内容仅供参考，版权终归原著者所有，若有侵权，请联系我们删除。