只看手势动作,AI 就能完美重现音乐

只看手势动作,AI 就能完美重现音乐

会玩乐器的人在生活中简直自带光环!不过,学会一门乐器也真的很难,多少人陷入过从入门到放弃的死循环。但是,不会玩乐器,就真的不能演奏出好听的音乐了吗?

最近,麻省理工学院(MIT)联合 MIT-IBM Watson 人工智慧AI)实验室(MIT-IBM Watson AI Lab)共同开发出了一款 AI 模型Foley Music,它可以根据演奏手势完美还原乐曲原声!而且还是不分乐器的那种,小提琴、钢琴、乌克丽丽、吉他,统统都可以。

只要拿起乐器,就是一场专业演奏会!如果喜欢不同音调,还可以对音乐风格进行编辑,A 调、F 调、G 调均可。

这项名为《Foley Music:Learning to Generate Music from Videos》的技术论文已被 ECCV 2020 收录。

接下来,我们看看 AI 模型是如何还原音乐的?

会玩多种乐器的 Foley Music

如同为一段舞蹈配乐需要了解肢体动作、舞蹈风格一样,为乐器演奏者配乐,同样需要知道其手势、动作以及所用乐器。

如果给定一段演奏影片,AI 会自动锁定目标对象的身体关键点(Body Keypoints),以及演奏的乐器和声音。

只看手势动作,AI 就能完美重现音乐 AI与大数据 图2张

(Source:论文,以下同)

身体关键点:由 AI 系统中的视觉感知模组(Visual Perception Model)来完成。它会透过身体姿势和手势的两项指标来反馈。一般身体会提取 25 个关键 2D 点、手指 21 个 2D 点。

乐器声音提取:采用音频表征模组(Audio Representation Model),该模组研究人员提出了一种音乐数位介面(Musical Instrument Digital Interface,简称 MIDI)的音频表征形式。它是 Foley Music 区别于其他模型的关键。

研究人员介绍,对于一个 6 秒中的演奏影片,通常会生成大约 500 个 MIDI 事件,这些 MIDI 事件可以轻松导入到标准音乐合成器以生成音乐波形。

在完成资讯提取和处理后,接下来,视-听模组(Visual-Audio Model)将整合所有资讯并转化,生成最终相匹配的音乐。

我们先来看一下它的完整架构图:主要由视觉编码、MIDI 解码和 MIDI 波形图输出 3 个部分构成。

只看手势动作,AI 就能完美重现音乐 AI与大数据 图3张

视觉编码:将视觉资讯进行编码化处理,并传递给转换器 MIDI 解码器。从影片帧中提取关键坐标点,使用 GCN(Graph-CNN)捕获人体动态随时间变化产生的潜在表示。

MIDI 解码器:透过 Graph-Transfomers 完成人体姿态特征和 MIDI 事件之间的相关性进行建模。Transfomers 是基于编解码器的自回归生成模型,主要用于机器翻译。在这里,它可以根据人体特征准确预测 MIDI 事件的序列。

MIDI 输出:使用标准音频合成器将 MIDI 事件转换为最终的波形。

实验结果

研究人员证实 Foley Music 远优于现有其他模型。在对比试验中,他们采用了 3 种数据集对 Foley Music 进行了训练,并选择了 9 种乐器,与其他 GAN-based、SampleRNN 和 WaveNet 3 种模型进行对比评估。

其中,数据集分别为 AtinPiano、MUSIC 及 URMP,涵盖了超过 11 个类别的大约 1,000 个高品质的音乐演奏影片。乐器则为风琴、贝斯、低音管、大提琴、吉他、钢琴、低音号、乌克丽丽和小提琴,其影片长度均为 6 秒。以下为定量评估结果:

可见,Foley Music 模型在贝斯(Bass)乐器演奏的预测性能最高达到 72%,而其他模型最高仅为 8%。

只看手势动作,AI 就能完美重现音乐 AI与大数据 图4张

另外,从以下 4 个指标来看,结果更为突出:

  • 正确性:生成的歌曲与影片内容之间的相关性。
  • 噪音:音乐噪音最小。
  • 同步性:歌曲在时间上与影片内容最一致。
只看手势动作,AI 就能完美重现音乐 AI与大数据 图5张

黄X为 Foley Music 模型,它在各项指标上的性能表现远远超过其他模型,在正确性、噪音和同步性三项指标上最高均超过了 0.6,其他最高不足 0.4,且 9 种乐器均是如此。

另外,研究人员还发现,与其他基准系统相比,MIDI 事件有助于改善声音品质、语义对齐和时间同步。

说明

  • GAN 模型:它以人体特征为输入,透过鉴别其判定其姿态特征所产生的频谱图是真或是假,经过反复训练后,透过傅立叶逆变换将频谱图转换为音频波形。
  • SampleRNN:是无条件的端到端神经音频生成模型,它相较于 WaveNet 结构更简单,在样本级层面生成语音要更快。
  • WaveNet:是 Google Deepmind 推出的一款语音生成模型,在 text-to-speech 和语音生成方面表现很好。

另外,该模型的优势还在于它的可扩展性。MIDI 表示是完全可解释和透明的,因此可以对预测的 MIDI 序列进行编辑,以生成 A、G、F 调不同风格音乐。如果使用波形或者频谱图做为音频表示形式的模型,这个功能是不可实现的。

只看手势动作,AI 就能完美重现音乐 AI与大数据 图6张

最后研究人员在论文中表明,此项研究透过人体关键点和 MIDI 表示很好地建立视觉和音乐信号之间的相关性,实现了音乐风格的可拓展性。为当前研究影片和音乐联系拓展出一种更好的研究路径。

  • Researchers’ AI system infers music from silent videos of musicians

(本文由 雷锋网授权转载;首图来源:pixabay)

延伸阅读:

  • PS5 用 AI 制作游戏配乐,配合玩家情绪弹奏音乐
  • 向经典致敬!YouTuber 利用 AI 取材知名乐团发新歌

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。