麻省理工最新人工智能系统可从无声视频中推断出音乐
  • 浏览:293 评论:0 人
  • 1楼

    近日,麻省理工学院和沃森人工智能实验室的研究人员描述了一个人工智能系统——Foley Music。它可以从音乐家演奏乐器的无声视频中生成“可信的”音乐。它可以用于多种音乐表演,在产生音乐方面,它优于现有的几种系统。

    研究人员相信,能够从身体动作中推断出音乐的人工智能模型可以作为一系列应用的基础,从自动为视频添加音效到在虚拟现实中创造沉浸式体验。

    Foley Music从视频帧中提取人体二维关键点(25个点)和手指(21个点)作为中间视觉表征,用于模拟身体和手部运动。对于音乐,系统采用MIDI表示,对每个音符的计时和响度进行编码。给定了关键点和MIDI事件(大约500个),一个“图形转换器”模块学习映射函数,将运动与音乐联系起来,捕捉长期关系,产生手风琴、贝斯、巴松管、大提琴、吉他、钢琴、大号、四弦琴和小提琴剪辑。系统不会将MIDI事件渲染成音乐,但研究人员指出,它们可以导入到标准的合成器中。研究小组把训练神经合成器的任务留给了未来的工作。

    研究人员报告称,与其他基线系统相比,评估人员发现Foley Music生成的音乐更难与真实录音区分开来。此外,MIDI表现似乎有助于改善声音质量、语义对齐和时间同步。

    研究结果表明,视觉和音乐信号之间的关联可以通过身体关键点和MIDI表现来建立。此外,这个框架很容易进行扩展,通过MIDI表现来生成不同风格的音乐。未来,人们或将使用中间体关键点和MIDI事件表征法来研究视频和音乐之间联系。”