论文部分内容阅读
近年来,随着人工智能、计算机视觉和人脸相关技术的快速发展,智能机器人在各领域的广泛使用,人们希望计算机拥有人一样的情感,理解人类意图的渴望越来越强烈。人脸表情作为人类最重要的生物信号和情感信号,在人机交互、医疗诊断、机器人制造、侦查审讯等领域有重要的应用价值。如何精准理解人脸表情,自然引起人工智能研究者的广泛关注。传统的表情识别方法主要基于手工设计的特征,近年来深度学习技术快速发展,基于深度学习的识别算法成为表情识别任务的主流方法。视频表情识别任务主要关心如何融合视频帧音频等模态得到视频级表情特征。之前的研究方法未考虑视频帧的重要程度,基于此本论文提出基于注意力机制的表情识别框架,能赋予不明显的表情帧较低的权重,明显的表情帧较高的权重,从而得到鲁棒的视频级表情特征。本方法在CK+数据上达到99.69%的准确率,取得目前最好的识别效果。在AFEW上取得51.181%的准确率,接近最好的结果。近几年来,多模态表情识别领域进步飞快,2011至今举办的AVEC国际情感识别竞赛主要关注音频模态、视频模态的情感识别能力和两种模态融合方法。2013年举办至今的EmotiW国际情感识别竞赛主要关注真实场景挑战下情感识别的能力。本论文提出一个多模态表情识别框架在EmotiW2018比赛视频表情识别任务取得第九名,高出BaseLine17%。让计算机学会表情分类需要大量数据,且数据要反应场景的复杂条件。目前表情数据主要来源于实验室采集的表情和电影剪辑出的表情数据。实验室采集的表情缺乏真实场景的光照,遮挡和姿态条件,表情不够丰富,而且大规模采集的成本高。电影剪辑的表情数据,虽然包含复杂的背景信息,但过于夸张与生活的表情不同。基于此本论文建立大规模、标注可靠、反应真实场景的表情数据库。标注表情数据库会面临主观偏向的问题,不同表情数据库之间的差异会更大。因此设计算法减少数据标注主观性影响,是我们今后的研究方向之一。此外标注AUs的成本很高,所以这类的表情数据较少。如何利用图片表情数据提高AUs检测的性能是我们下一步的研究重点。