基于分割网络和时域自注意力机制的深度假脸视频检测算法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:muhututu1216
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人脸一直是人类最重要的个体特征。在人脑认知中,我们主要是通过识别脸部来确定观察对象的身份;在人工智能中,人脸是最广泛采用的身份识别特征,人脸识别在各种身份验证场景中发挥着重要作用。从某种意义讲,人脸就是每个个体的身份标识。近几年,随着深度学习的发展,出现了替换、伪造人脸图像或视频的新技术——Deepfake(深度伪造)。这些利用深度网络模型生成的假脸图像和视频十分逼真,极易误导人们的判断,甚至能骗过人脸识别的计算机算法,危害极大。为应对这类新型信息安全问题,国内外已迅速展开相应的检测研究。考虑到视频的欺骗性更强,危害更大,本文重点关注假脸视频检测问题。现有文献提出的假脸视频检测算法在库内测试中可取得较为满意的实验结果,但在跨库测试中的准确率则普遍显著下降。算法泛化性能不足是当前深度假脸检测面临的主要挑战,也是制约该技术投入实用的主要技术瓶颈。对此,本文提出将假脸检测问题看作图像分割问题,利用分割网络识别视频帧中的真、假区域,在此基础上,进一步地构建原像素与噪声双流特征提取网络,并引入时域自注意力机制,充分利用假脸视频的时、空域篡改特征。具体地,本文工作包括以下几方面:1、研究分析了Meso Inception-4、MISLnet、Shallow Net V1、Inception-v3和Xception等五种经典的基于卷积神经网络的假脸视频检测器,在TIMIT、Face Forensics++和FFW等三个常用假脸视频数据库上进行了详细的库内和跨库实验,重点讨论了数据库划分方式、数据增广操作以及检测阈值选取等因素对检测器泛化性能的影响。2、基于第一项工作的分析结果,得出仅使用二值标签是影响假脸视频检测算法泛化性能的因素之一。从假脸篡改机制出发,将视频换脸视为特殊的拼接篡改问题,提出利用图像分割网络预测视频帧中的篡改区域,得到预测掩膜概率图;同时提出一种基于人脸区域与预测篡改区域交并比的视频帧真假判别准则。实验结果表明,该方法相比几种经典假脸视频检测算法在跨库检测中的半总错误率和准确率均有明显改进。3、为进一步提高检测性能,提出在原始像素外引入噪声模型,构建双流全卷积分割网络,从而增强空域篡改特征的检测能力。在此基础上,为利用假脸视频的时域篡改特征,设计了时域自注意力机制,该机制参考了自然语言处理中的经典模型,将单个视频帧视为单词,多个视频帧视为句子,利用前后帧的相关性对当前帧的检测进行补偿和纠正。所设计的时域自注意力双流全卷积分割网络在主流数据库上的库内和跨库检测中均取得了最优或接近最优的性能。该网络还可以通过调节自注意力机制参数,实现对单张假脸图片与一段假脸视频的兼容检测。
其他文献
近年来,随着智能机器人的发展,机器人的工作方式从单个机器人逐渐转为群体机器人协作完成任务的方式。因此开展移动机器人群体选择、交互和感知推理等技术的研究具有重要作用。本文的主要研究内容包括以下三个方面:(1)三维手势识别与交互技术:采用Leap Motion作为手势传感器捕捉控制者手部信息,作为人-群体机器人人机交互输入数据;基于支持向量机(Support Vector Machine,SVM)对静
相比其他类型的公共建筑,公众对博物馆空间有着更高的审美要求,在当代博物馆空间中,服务对象从展品转向观众,观众的视觉体验与心理感知越来越受到重视,博物馆空间也越来越开放与自由,呈现多义性发展的趋势。随着博物馆空间多义发展,公共楼梯不再是简单的交通构件,作为集艺术与技术于一体的建筑元素,公共楼梯成为表现博物馆空间效果的重点设计要素。本文以空间多义性为研究背景,重点对博物馆公共楼梯在空间多义性影响下的设
随着人类社会的快速发展,电动汽车及各种便携式电子设备的迅速普及,人们对二次电池的需求也愈发强烈。锂离子电池具备体积小、输出电压高、无记忆效应、能量和功率密度高等优点,因而其成为了主流的二次电池。目前的商业石墨负极由于其低的理论容量(372 m Ah g-1)已逐渐不能满足实际的发展需求,因此,发展高容量且低成本的新型负极材料变得尤为重要。以转换反应为主的镍基过渡金属负极材料由于其较为可观的理论容量
随着大城市土地利用由增量扩张转向存量挖掘,传统土地储备制度难以应对大规模城市存量土地再开发需求,储备对象的转变引发了储备方式的转变;因此,面向存量土地再开发的土地整备被提出了,其结合了土地储备与土地整理两方面特点,即通过土地归并、收购、置换、入股等方式进行权属调整及分割,并对调整后的土地以规划为依据实施整体征地拆迁、土地清理及前期开发完成土地储备的全过程。本研究以广州市“片区全面改造与国资企业统一
深度学习技术近年来得到了飞速的发展,被广泛的应用到生活的方方面面。然而,当可供模型训练样本很少时甚至只有几个时,模型的性能往往表现很差,不能满足人们的需要。为了解决这种困境,人们提出了小样本学习方法。小样本方法大都可以分成两阶段的训练过程,即在基类数据集进行预训练的过程,和在新类数据集上评估小样本分类任务的过程。本文将这两个阶段的学习特点综合在一起展开研究,分别提出了改进措施,其主要贡献如下:(1
近几年来,随着我国汽车行业的快速发展,带来的交通问题越来越严重,安全出行成为人们日常关注的主要社会问题之一。人工智能技术和传统车辆的结合使得自动驾驶技术成为可能,目前车辆的高级驾驶辅助系统成为研究的主要热点。车道线检测有助于引导车辆安全驾驶,并且可以应用于高级驾驶辅助系统。在实际交通场景中,由于道路环境的复杂性、天气变化无常、昏暗或者炫目的光线、车道线模糊不清等原因,给车道线检测带来一定的挑战性。
在脑机接口(Brain-computer Interface,BCI)控制系统中,脑电(Electroencephalogram,EEG)信号由于其稳定、安全和易采集的特点,成为BCI应用研究中的热点。混合脑机接口(Hybrid Brain-computer Interface,h BCI)则是将EEG与其他生理信号相结合进行混合控制的交互技术。混合信号包括眼电(Electrooculograph
基塘农业是岭南人民根据珠三角地区地势低洼,将水利堤围与挖塘养鱼、堤上树果树桑结合起来的一种生态农业,是我国重要的农业文化遗产。海珠湿地的果基农业已有千年历史,在湿地发展进程中面临着果基农业保护和传承的一大难题。自然教育中的农耕教育是带领儿童和青少年进行农作物的认知、种养、采摘、收获以及学习家畜养殖等传承中华农耕文化的教育活动,重新连结着人与土地、自然的关系。如何将自然教育的内涵与基塘农业的生产生活
进入二十一世纪以来,随着我国现代化教育战略的实施和教育理念及模式的转变,以培养学生综合素质和终生学习的技能纳入教育目标体系,传统应试教育为范式的均质化小学校园空间也迎来了新的变革。小学校园作为儿童心智的启蒙场所,其育人的空间属性和场所特征逐渐凸显,与小学校园空间环境相关的研究提上日程。在此背景下,面对新时代创新型、个性化人才的培养目标,如何将传统校园空间中的被动式学习方式转向主动式学习,引导儿童主
语音数据量呈现爆炸式增长,但是由于转录成本高,其利用率较低。因此如何快速、准确、低成本的获得用户感兴趣的部分是提高语音数据后续利用率的关键。基于Qb E(Query-by-Example)的语音关键词检测以其无需先验知识、使用灵活的优势再次受到越来越多的关注,并对于低资源语种具有巨大优势。本文针对基于Qb E的语音关键词检测中的检索效率、检测准确性、匹配算法的合理性以及多样例的应用方式开展了一系列