论文部分内容阅读
每天都有数以百万计的视频被制作并上传到网上,其中大部分视频的内容都没有经过审核。此外,VideoEditor、AdobePhotoshop、WindowMovieMaker、以及AdobeAfterEffects等视频编辑软件也被广泛使用。这些软件支持各种各样的视频编辑方法,即使编辑后的内容与原始内容有很大的反差,视频内容也能被随意编辑。
此外,随着深度学习技术的快速发展,已经出现了自动将一个人的脸部替换为另一个人脸部的视频编辑软件,如FakeApp、Faceswap等工具。这导致人们看到这些视频时不再信以为真。由于在法庭上,真实的视频比真实的图像更能提供强有力的证据,因此,对视频的真实性取证已经成为当今的迫切要求。
近年来,随着视频编辑应用软件的稳步发展,视频中的3-D区域可以被复制,然后粘贴到其他位置进行编辑,包括亮度、几何特征等类似的东西都可以很容易地进行编辑。这些3-D区域可以是连续帧序列或整个连续帧序列内的小3-D区域。这些已经成为视频篡改中常用的篡改方法,并且很难检测到。
因此,寻找检测此类伪造视频的技术算法是我们迫切需要研究的问题。在本研究的第一部分中,我们提出了一种利用帧残差的相位相关性来检测视频中3-D区域重复并确定篡改发生位置的方法。通过大量实验证明,该方法能够有效检测视频中的3-D区域的篡改。帧级的操作隐藏或模仿了视频中的内容,这些操作是编辑视频内容的简单技巧,但它们会产生肉眼很难检测到的伪造视频。另外,视频内容编辑应用程序强烈支持帧级别的篡改视频操作。任何人都可以通过视频编辑应用程序的一个或两个动作来高效地执行帧序列的删除、复制或插入。本文方法可以有效检测这类修改。
最近,深度学习(Deep Learning)已经取得了突出的成果,特别是卷积神经网络(CNNs)在解决目标检测、自动驾驶汽车、视觉字幕等许多具有挑战性的视觉问题上取得了大量成果,特别是在大规模图像识别方面,这促使我们研究和应用最近有效的CNN模型来检测帧级(视频帧间伪造)的视频伪造。
在本研究的第二部分中,提出了一种应用最新CNN模型的方法。这些CNN模型在ImageNet数据库上用100多万张图像进行训练,我们在目标数据集上进行了微调和重新训练,以检测某些类型的视频帧间伪造。我们还比较了这些模型的效率,以找出哪种CNN模型的体系结构更适合于检测视频帧间的伪造。
值得一提的是,这些模型不是直接从视频帧重新训练的,而是根据连续帧之间的残差或光流特征进行重新训练的。我们已经进行了大量的实验,以找出该方法所获得的最佳特征。此外,还进行了一些测试,以检验在ImageNet数据库上训练的迁移学习模型在这种情况下的效率。在测试阶段,将分类打分细化为信度打分,以增强模型的有效性。
除了人工操作的视频伪造之外,最近,数以百万计的视频被上传到网上,其中许多视频已经被全自动技术操作改变了视频内容。这种技术的发展给个人和社会带来了令人担忧的后果。尤其是在过去两年里,基于深度学习的人脸替换技术发展迅速,特别是Deepfake技术等,其中诸如FaceApp、Faceswap-gan、DeepFaceLab以及Dfaker等著名工具,它们被用来制作包含面部篡改的视频。而这些面部视频伪造很难用肉眼来识别,它们有可能出于恶意目的而制作出来的,如名人、政客的色请视频或假新闻、假监控视频,甚至造假政策紧张局势等。
因此,人脸视频伪造检测已成为研究人员所关注的热门课题。目前,已有一些针对深伪/高仿(Deepfake)视频检测的方法,但大多仅基于隐写分析特征,或者分别基于时间和空间上的学习特征。视频中具有时间和空间关系的特征等尚未得到充分利用。因为视频是时间上的一组连续帧,最近的所有方法都没有带来很好的结果。因此,这仍然是一个巨大的挑战。而最新的机器学习方法表明,三维卷积核函数可以同时学习空间和时间特征,从而取得了突破性的效果。
在本研究的最后部分中,我们应用并提出了一种利用三维卷积核构建深度三维卷积神经网络来学习短连续帧序列中的时空特征以检测深伪视频的方法。我们在FaceForensics++和VidTIMIT这两个规模最大且最流行的深伪视频数据集上进行了实验,并将所提方法的效率与最新的方法进行了比较。通过实验证明,我们提出的方法比现有的方法更高效、更准确。
此外,随着深度学习技术的快速发展,已经出现了自动将一个人的脸部替换为另一个人脸部的视频编辑软件,如FakeApp、Faceswap等工具。这导致人们看到这些视频时不再信以为真。由于在法庭上,真实的视频比真实的图像更能提供强有力的证据,因此,对视频的真实性取证已经成为当今的迫切要求。
近年来,随着视频编辑应用软件的稳步发展,视频中的3-D区域可以被复制,然后粘贴到其他位置进行编辑,包括亮度、几何特征等类似的东西都可以很容易地进行编辑。这些3-D区域可以是连续帧序列或整个连续帧序列内的小3-D区域。这些已经成为视频篡改中常用的篡改方法,并且很难检测到。
因此,寻找检测此类伪造视频的技术算法是我们迫切需要研究的问题。在本研究的第一部分中,我们提出了一种利用帧残差的相位相关性来检测视频中3-D区域重复并确定篡改发生位置的方法。通过大量实验证明,该方法能够有效检测视频中的3-D区域的篡改。帧级的操作隐藏或模仿了视频中的内容,这些操作是编辑视频内容的简单技巧,但它们会产生肉眼很难检测到的伪造视频。另外,视频内容编辑应用程序强烈支持帧级别的篡改视频操作。任何人都可以通过视频编辑应用程序的一个或两个动作来高效地执行帧序列的删除、复制或插入。本文方法可以有效检测这类修改。
最近,深度学习(Deep Learning)已经取得了突出的成果,特别是卷积神经网络(CNNs)在解决目标检测、自动驾驶汽车、视觉字幕等许多具有挑战性的视觉问题上取得了大量成果,特别是在大规模图像识别方面,这促使我们研究和应用最近有效的CNN模型来检测帧级(视频帧间伪造)的视频伪造。
在本研究的第二部分中,提出了一种应用最新CNN模型的方法。这些CNN模型在ImageNet数据库上用100多万张图像进行训练,我们在目标数据集上进行了微调和重新训练,以检测某些类型的视频帧间伪造。我们还比较了这些模型的效率,以找出哪种CNN模型的体系结构更适合于检测视频帧间的伪造。
值得一提的是,这些模型不是直接从视频帧重新训练的,而是根据连续帧之间的残差或光流特征进行重新训练的。我们已经进行了大量的实验,以找出该方法所获得的最佳特征。此外,还进行了一些测试,以检验在ImageNet数据库上训练的迁移学习模型在这种情况下的效率。在测试阶段,将分类打分细化为信度打分,以增强模型的有效性。
除了人工操作的视频伪造之外,最近,数以百万计的视频被上传到网上,其中许多视频已经被全自动技术操作改变了视频内容。这种技术的发展给个人和社会带来了令人担忧的后果。尤其是在过去两年里,基于深度学习的人脸替换技术发展迅速,特别是Deepfake技术等,其中诸如FaceApp、Faceswap-gan、DeepFaceLab以及Dfaker等著名工具,它们被用来制作包含面部篡改的视频。而这些面部视频伪造很难用肉眼来识别,它们有可能出于恶意目的而制作出来的,如名人、政客的色请视频或假新闻、假监控视频,甚至造假政策紧张局势等。
因此,人脸视频伪造检测已成为研究人员所关注的热门课题。目前,已有一些针对深伪/高仿(Deepfake)视频检测的方法,但大多仅基于隐写分析特征,或者分别基于时间和空间上的学习特征。视频中具有时间和空间关系的特征等尚未得到充分利用。因为视频是时间上的一组连续帧,最近的所有方法都没有带来很好的结果。因此,这仍然是一个巨大的挑战。而最新的机器学习方法表明,三维卷积核函数可以同时学习空间和时间特征,从而取得了突破性的效果。
在本研究的最后部分中,我们应用并提出了一种利用三维卷积核构建深度三维卷积神经网络来学习短连续帧序列中的时空特征以检测深伪视频的方法。我们在FaceForensics++和VidTIMIT这两个规模最大且最流行的深伪视频数据集上进行了实验,并将所提方法的效率与最新的方法进行了比较。通过实验证明,我们提出的方法比现有的方法更高效、更准确。