论文部分内容阅读
人脸表情是人类情感表达最自然,最有效的手段,也是人机交互的重要媒介。随着人工智能技术的发展,人们对人机交互提出了更高的要求,希望计算机可以更“拟人化”,可以正确认知用户的情感并做出积极且准确的反馈。表情识别,作为实现这一目标的关键环节之一,在过去的数十年中已得到研究者们越来越广泛的关注。相关研究成果已被用于远程教育,车载安全系统,公安测谎系统等多个领域。虽然目前人脸表情识别已经在各个领域展现出很高的应用价值,但其研究仍然存在巨大挑战,例如表情训练样本不足、类内差异大、姿态多变、表情变化微弱、背景复杂等。针对上述问题,本文从离散以及连续的人脸图像生成、姿态鲁棒特征提取、多任务协同分析和情感迁移学习等角度出发,研究实验室场景和自然场景的人脸表情识别问题,提出了一系列基于生成对抗网络的数据驱动方法,主要贡献体现在如下5个方面:(1)提出基于离散生成数据的人脸表情识别方法。针对现有人脸表情数据库中带标签样本不足导致的模型识别率低的问题,提出基于离散生成数据的端到端人脸表情识别方法。该方法利用生成对抗网络对人脸图像的姿态和表情进行同时建模,通过生成对抗网络中生成器与判别器的对抗学习解开人脸图像中人物特征与姿态以及表情间的关系,当加入新的表情和姿态编码时使得模型能够合成大量可用的人脸表情图像。通过合成的人脸表情图像和原始人脸表情图像共同训练深度表情分类模型,从而提高表情识别率。(2)提出基于连续几何约束的任意姿态人脸表情识别方法。针对任意姿态表情训练样本不足以及表情类内差异大而导致的表情识别率不高的问题,提出基于连续几何约束的任意姿态人脸表情识别方法。该方法利用包含人物姿态和表情信息的人脸关键点提取几何特征,通过双线性插值法得到不同关键点间的连续特征变化,然后将其作为生成对抗网络的几何约束条件,合成大量任意姿态和任意表情下的带标签人脸表情数据。最后,利用充足的训练数据训练深度表情分类模型,提高了任意姿态人脸表情识别率。(3)提出基于姿态统一建模的人脸表情识别方法。针对人脸图像中姿态多变而导致的表情识别率低的问题,提出基于姿态统一建模的人脸表情识别方法。该方法首先利用生成对抗网络合成任意一张人脸图像所对应的不同姿态下的人脸表情图像,然后采用多角度卷积神经网络对不同姿态的人脸图像进行统一建模,得到姿态统一特征,从而减轻了姿态对最终表情识别结果的影响。所提方法不仅解决了多角度卷积神经网络要求每张输入图像必须具有其所对应的各个姿态下人脸图像的问题,还提高了最终的表情识别准确率。(4)提出基于多任务协同分析的鲁棒人脸表情识别方法。针对人脸表情变化不明显,单一任务模型较难提取到具有判别力的情感特征而导致的模型识别率不高的问题,提出基于多任务协同分析的鲁棒人脸表情识别方法。该方法提出一个可同时用于回归和分类任务的统一模型对人脸图像生成、人脸关键点检测和人脸表情识别三个紧密相关的任务进行端到端的建模,使其可以相互约束、相互促进。在多个数据库上的大量实验结果表明所提方法不仅能够提升人脸表情识别结果,还能促进人脸图像生成和人脸关键点检测任务。(5)提出基于循环生成对抗网络的自然场景人脸表情识别方法。针对自然场景下人脸表情图像由于背景复杂、光照多变、数据采集与标注困难以及自发表情类内差异大而导致的表情识别率低的问题,提出基于循环生成对抗网络的自然场景人脸表情识别方法。该方法利用网络上海量的无标签人脸表情图像和无监督循环生成对抗网络技术,将实验室场景下的带标签表情图像转变为其所对应的自然场景人脸图像,从而得到充足的带标签自然场景表情数据,然后借助于注意力迁移机制以及深度学习方法提高了自然人脸表情识别结果。本文研究表明,利用生成对抗网络和深度学习模型进行端到端的人脸表情识别研究,从高质量表情图像生成、鲁棒人脸表情特征提取与表示、任意姿态人脸表情分类模型的建立、多个相关任务间的协同促进以及情感迁移学习出发,可有效解决由于人脸表情训练样本不足、表情类内差异大、姿态多样以及背景复杂等因素造成的人脸表情识别率低的问题,在Multi-PIE,BU-3DFE,SFEW和EmotioNet四个公开人脸表情数据集上的相关实验结果表明,所提方法可提高最终的表情识别结果。