论文部分内容阅读
人脸检测是指给定一张图像,判断图像中是否含有人脸;人脸识别是在人脸检测的基础上给出人脸对应的身份信息。人脸识别紧跟深度学习快速发展的步伐,在识别精度和应用效果方面,取得了跨越式的提升,并被广泛地应用到公司考勤、车站自动检票、APP支付认证等场景。在计算机视觉与模式识别领域,基于深度学习的方法在性能方面的提升得益于海量的数据、GPU的快速运算、深层的网络结构以及各种网络优化方式。人脸识别作为该领域的一个分支,也需要这些必要的条件来提升人脸识别精度。本文采用了基于ResNet深度卷积神经网络,使用微软提供的百万名人数据集MSCELEB1M进行模型训练,并在国际标准测试集LFW、YTF、CFP等上进行测试。本论文主要工作如下:1、针对MSCELEB1M训练集含有大量噪声,无法人为标注的问题,本论文提出了基于视觉相似性的清洗方法。该方法利用已有的深度模型,提取每一个类别下的深度特征,接着使用K-means算法,将这些特征分成两个小类,每一个小类拥有一个中心,选择图片数多的中心作为该类别下的真实中心,然后再计算所有图片特征到选出的中心之间的距离,如果距离在一定范围内则认为属于该类,将其保留,否则删除。实验证明该方法能有效删除噪声图片,提升训练效果。2、针对提取具有判别能力强的特征,使得相同人脸之间的度量距离小,不同人脸之间的度量距离大的问题,本论文提出了一个新型的优化函数Triplet-awared Center Loss,该优化函数结合了Center Loss和Triplet Loss二者的优点,拉近同类之间的距离的同时增大了异类之间的距离。除此之外,Triplet-awared Center Loss避免了Triplet Loss需要精心选择训练所需三元组的缺点,使得训练过程更加简洁有效。3、从深度卷积神经网络的角度探究了训练集规模、网络深度以及基于通道维度相关性的SE网络对人脸识别的影响。这些实验验证了本文提出的Triplet-awared Center Loss在训练集变大、网络加深或改变时能稳定收敛到最佳的状态,说明本论文提出的损失函数在给定最优参数(γ=0.1,β=20,K=20)下具有较强的鲁棒性。此外,探索了遮挡对人脸识别的影响,发现鼻子区域的遮挡对人脸识别准确率影响最大。本论文最终将LFW、YTF、CALFW、CPF-FP测试集上的准确率提高到99.62%、95.94%、94.68%、94.99%。特别在BLUFR上获得了较大的提升,将DIR@FAR=1%时的准确率,从69.79%提升到92.57%。