论文部分内容阅读
人脸蕴含着包括种族、肤色、性别、年龄、身份和表情等要素在内的丰富的个人信息,是身份辨识和情感表达的主要渠道,在社会人际交往中扮演着重要角色,也在人机交互中发挥着不可替代的重要作用,具有重要的研究价值和广泛的应用前景。深度特征学习与解耦是当前人脸图像特征学习的主流方法,在包括人脸识别、人脸表情识别、人脸年龄评估、伪造人脸识别和人脸属性编辑等方向都取得了很大的进展。近年来,随着人脸应用需求的提升和深度学习技术的进步,解决实际应用中的复杂挑战成为了研究主流。针对不同的人脸应用挑战,本文提出了一系列人脸图像深度特征学习与解耦方法,具体介绍如下:在第三章中,提出了基于裁剪和注意力机制的口罩遮挡人脸图像特征学习方法。新冠疫情的大流行使人们意识到戴口罩是保护自己和他人免受病毒侵袭的最有效的方法之一,这对传统的人脸识别系统造成了巨大的挑战。当前的口罩遮挡人脸识别存在两个主要问题,一是人脸检测系统难以准确检测戴口罩的人脸图像,二是嘴部和鼻子周边的面部特征被严重破坏,人脸图像有效特征显著减少。本文提出基于裁剪的方法来高效地去除遮挡特征的负面影响,探索了口罩遮挡人脸图像的最优裁剪位置,省去了遮挡检测所需要的时间和计算资源的开销。同时提出了基于注意力机制的方法来聚焦眼部周边特征的学习,赋给眼部周边有效特征更大的权重。最后,融合上述两种方法,在三种不同的口罩遮挡人脸识别场景下均取得了优异的表现。在第四章中,提出了基于多模态对比学习的面向自然场景的人脸表情特征学习方法。自然场景下的人脸表情识别面临着遮挡和头部姿势变化等外界干扰问题,并且标注者的主观认知能力不一、低质量的人脸图像和复合表情等原因导致了严重的标注歧义问题。本章提出融合卷积神经网络和Vi T网络的混合学习架构,该架构充分利用卷积神经网络的局部特征学习能力和Vi T网络的全局特征学习能力。具体地,本章设计了一个特定于表情识别的编码器,其中的混合注意力可以同时表征用于表情分类的独热编码标签和文本标签。为缓解上述的不确定性外界干扰问题,提出了多粒度特征融合的方法来学习不同粒度的特征。更重要的是,通过监督图像特征和文本特征之间的余弦相似度,使得图像特征同样具有不同表情在文本语义空间中的关联性,以此缓解标注歧义问题。在多个公开数据库上的实验结果显示,该方法对标注歧义图像展现了很好的鲁棒学习能力,并且取得了优异的表情分类表现。在第五章中,提出了基于双通道特征解耦的身份信息无关的人脸表情特征学习方法。人脸身份特征和表情特征非线性纠缠在一起,导致表情识别问题具有两个内在挑战,即不同人的同种表情图像之间差异较大,同一个人的不同表情图像之间的差异很小。为解决上述挑战,本章提出双通道交替训练方法。通过构建同一个人的不同表情图像对和不同人的同一表情图像对,交替训练孪生网络。在训练过程中增加不同表情特征之间的距离,同时减小同种表情特征之间的距离。此外,为降低被身份特征污染的表情特征对表情识别带来的负面影响,本章将面部特征解耦为身份特征、表情特征和共享特征三部分。然后,基于希尔伯特-施密特独立性准则精心设计了一个对比学习损失函数,进一步增大不同表情特征之间的距离,减小同一种表情特征之间的距离。最后,在几个公开的表情识别数据库上验证了该方法的优越性。综上所述,本文针对口罩遮挡人脸识别和人脸表情识别研究中的特征损坏、标注歧义和特征纠缠等问题展开了深入的研究。通过灵活设计网络结构和损失函数,实现了针对性的深度特征学习。大量的实验结果表明,本文提出的方法可以有效提高多个应用背景下的人脸图像深度特征学习能力。