论文部分内容阅读
本文讨论人脸活体检测算法,它是现代人脸识别系统(如网上银行,网上购物等)的重要组成部分。尽管许多机构都对这个问题进行了研究,但是人脸活体检测算法的准确性和鲁棒性依然有待提升。因为人脸攻击的光照、场景、拍摄设备等条件多种多样,而现有公开数据集因数据采集困难,样本单一,所以大多数算法极其容易过拟合。本文基于视频序列前后帧之间的单应性关系对人脸活体算法进行分析,有效提高了算法的鲁棒性。主要工作成果体现在以下几个方面:首先,鉴于传统的人为设计的特征(如Optical Flow,LBP,HOG等)在进行人脸活体检测时的性能有限,本文提出以视频序列之间的单应性关系为依据对视频进行分类。本文根据对“真”、“假”人脸视频的观察,发现了在“假”脸视频中,帧与帧之间的大部分区域相对运动为刚体平面的平动和转动,即有单应性关系;而在“真”脸视频中,帧与帧之间的所有区域的相对运动为一个立体人脸的运动,没有单应性关系。本文所提出的单应性特征和传统的特征相比更能反映出“真”脸和“假”脸视频的本质区别。本研究利用单应性参数提出的特征在多个数据集上体现出较强的准确率和鲁棒性,尤其是在不同数据集的交叉验证中取得了很好的结果,模型体现出很好的泛化能力。其次,本文讨论了单应性参数和运动特征提取的方法。在单应性的区域中,帧与帧之间的变换可以通过一个单应性变换矩阵,将其中一帧变换为另外一帧。本文设计了利用空间转换网络(STN)提取两帧之间的单应性变换矩阵,再通过变换矩阵的参数,结合图片提取运动特征的方法。最后,本文提出了一种将多实例学习(MIL)算法应用于图片的多个子区域(Patch)的新颖框架。经过总结发现,“真”脸视频中所有的Patch都是非单应性的,而“假”脸视频中部分Patch具有很强的单应性。因为在“假”脸视频中,帧与帧之间的相对运动可以分解为一个摄像机和拍摄平面的相对运动分量(单应性分量)和视频中人脸移动的分量(非单应性分量)。受到非单应性分量的干扰,重拍人脸视频中,部分Patch在帧与帧之间并不表现出明显的单应性。由于具体哪些Patch具有单应性未知,我们引用了多实例学习算法找出视频中具有单应性的Patch。综上所述,本文对人脸活体检测算法进行了广泛的讨论,并对其中的关键问题进行了深入的研究。针对传统特征模型泛化能力的局限性,本文原创性的提出了基于单应性分析的新颖算法,并探讨了提取单应性特征的具体方法。同时,将多实例框架引入到人脸活体检测中,提高了模型的召回率。基于大量理论分析和实验结果,本文提出的一系列方法稳定且具有较强的泛化能力,显著提升了人脸活体检测算法性能。