论文部分内容阅读
又一次,AI(人工智能。编者注)欺骗了人类。
在一次试验中,AI 让 73% 的人相信 AI 合成音效是真实的。这一最新研究成果有望应用于电影、电视剧等影视制作工作中。
想象一下,假如你正在看一部恐怖片:女主战战兢兢地走在黑暗的地下室中,背景音乐十分恐怖,同时一些看不见的邪恶生物也在黑暗中蠕动,然后突然一声巨响,一个物体被撞倒了…… 如果没有这种令人紧张又恰到好处的音效,只通过眼睛看到的场景很难让人产生这种恐惧感。
通常,这些音效是由录音室中的 Foley 艺术家录制的,他们会使用特定的物体来产生特殊的声音。比如,如果导演想要在视频中加入玻璃破碎的声音,可能需要 Foley 艺术家打碎很多块玻璃,直到声音与视频片段匹配起来。(Foley,即拟声音效,用于增强电影的听觉体验,是日常声音效果的再现,后期制作中会添加到电影、视频和其他媒体中,以提高音频质量。这些再现的声音以音效艺术家杰克·福莱的名字命名,可以是从衣服和脚步声,到“吱吱”作响的门和碎玻璃的任何声音。编者注)
如今,为解决这一问题,来自美国得克萨斯大学圣安东尼奥分校的研究人员创建了一个基于机器学习的自动程序,它可以确定一个视频剪辑中正在发生的动作,并据此创建逼真的音效,而且已经让大多数人相信假的声音效果是真实的。
相关研究成果以论文的形式发表在由 IEEE 计算机协会、IEEE 通信协会等出版的科学期刊《IEEE 多媒体汇刊》上。
对于此项工作,论文通讯作者、得克萨斯大学圣安东尼奥分校教授杰夫·普雷沃斯特表示:“自 20 世纪 30 年代以来,在电影和电视剧的后期制作中,通过使用 Foley 艺术为特定场景添加音效,一直是一个比较复杂的事情。如果没有逼真的 Foley 音效,电影就会显得空洞、不真实,但是 Foley 音效合成增加了电影和电视剧的创作周期和成本。”
在普雷沃斯特和他的博士生桑奇塔 · 高斯创建的多层机器学习程序中,他们针对包括识别视频中的动作和确定合适的声音这一步,分别创建了两种不同的模型,来检验音效的合成效果。
第一种模型,可以从快速移动的动作剪辑的帧中提取图像特征(比如,颜色和运动),以确定适当的声音效果;第二种模型,分析一个物体在不同帧中的时间关系,通过使用关系推理来比较不同时间段的不同帧,这一模型可以预测在视频中发生了什么动作。
在最后一步中,通过合成声音来匹配模型预测的活动或运动。目前,他们为 1000 个电影片段创建了声音,并捕捉了一些常见的动作,比如下雨、奔腾的马和滴答作响的钟表。
结果显示,他们的模型最适合用在时间不需要与视频完全一致的场景(比如,下雨声和火的噼啪声)中,但当视频中包含随时间变化的随机动作(比如,打字、雷暴)时,表现得就不太好。
此外,他们也对当地的 57 位大學生进行了调查,看他们是否可以分辨出哪些电影片段中包含了原始音效。在评估第一个模型时,73% 的学生选择了合成音效作为原始音效,在评估第二个模型时,这一数字为 66%。可见,这两个 AI 模型已经骗过了大多数人。
但是,普雷沃斯特表示,该方法还存在一个明显的不足,必须要求分类的主体出现在整个视频帧序列中,而且依赖于具有有限 Foley 类别的数据集。
对此,普雷沃斯特认为,这些不足将会在未来的研究中得以解决。(摘自美《深科技》)(编辑/华生)
在一次试验中,AI 让 73% 的人相信 AI 合成音效是真实的。这一最新研究成果有望应用于电影、电视剧等影视制作工作中。
想象一下,假如你正在看一部恐怖片:女主战战兢兢地走在黑暗的地下室中,背景音乐十分恐怖,同时一些看不见的邪恶生物也在黑暗中蠕动,然后突然一声巨响,一个物体被撞倒了…… 如果没有这种令人紧张又恰到好处的音效,只通过眼睛看到的场景很难让人产生这种恐惧感。
通常,这些音效是由录音室中的 Foley 艺术家录制的,他们会使用特定的物体来产生特殊的声音。比如,如果导演想要在视频中加入玻璃破碎的声音,可能需要 Foley 艺术家打碎很多块玻璃,直到声音与视频片段匹配起来。(Foley,即拟声音效,用于增强电影的听觉体验,是日常声音效果的再现,后期制作中会添加到电影、视频和其他媒体中,以提高音频质量。这些再现的声音以音效艺术家杰克·福莱的名字命名,可以是从衣服和脚步声,到“吱吱”作响的门和碎玻璃的任何声音。编者注)
如今,为解决这一问题,来自美国得克萨斯大学圣安东尼奥分校的研究人员创建了一个基于机器学习的自动程序,它可以确定一个视频剪辑中正在发生的动作,并据此创建逼真的音效,而且已经让大多数人相信假的声音效果是真实的。
相关研究成果以论文的形式发表在由 IEEE 计算机协会、IEEE 通信协会等出版的科学期刊《IEEE 多媒体汇刊》上。
对于此项工作,论文通讯作者、得克萨斯大学圣安东尼奥分校教授杰夫·普雷沃斯特表示:“自 20 世纪 30 年代以来,在电影和电视剧的后期制作中,通过使用 Foley 艺术为特定场景添加音效,一直是一个比较复杂的事情。如果没有逼真的 Foley 音效,电影就会显得空洞、不真实,但是 Foley 音效合成增加了电影和电视剧的创作周期和成本。”
在普雷沃斯特和他的博士生桑奇塔 · 高斯创建的多层机器学习程序中,他们针对包括识别视频中的动作和确定合适的声音这一步,分别创建了两种不同的模型,来检验音效的合成效果。
第一种模型,可以从快速移动的动作剪辑的帧中提取图像特征(比如,颜色和运动),以确定适当的声音效果;第二种模型,分析一个物体在不同帧中的时间关系,通过使用关系推理来比较不同时间段的不同帧,这一模型可以预测在视频中发生了什么动作。
在最后一步中,通过合成声音来匹配模型预测的活动或运动。目前,他们为 1000 个电影片段创建了声音,并捕捉了一些常见的动作,比如下雨、奔腾的马和滴答作响的钟表。
结果显示,他们的模型最适合用在时间不需要与视频完全一致的场景(比如,下雨声和火的噼啪声)中,但当视频中包含随时间变化的随机动作(比如,打字、雷暴)时,表现得就不太好。
此外,他们也对当地的 57 位大學生进行了调查,看他们是否可以分辨出哪些电影片段中包含了原始音效。在评估第一个模型时,73% 的学生选择了合成音效作为原始音效,在评估第二个模型时,这一数字为 66%。可见,这两个 AI 模型已经骗过了大多数人。
但是,普雷沃斯特表示,该方法还存在一个明显的不足,必须要求分类的主体出现在整个视频帧序列中,而且依赖于具有有限 Foley 类别的数据集。
对此,普雷沃斯特认为,这些不足将会在未来的研究中得以解决。(摘自美《深科技》)(编辑/华生)