论文部分内容阅读
表情是人类传递和表达情感的一个重要形式。虽然计算机视觉和机器人技术近年来取得了迅猛发展,但是如何准确识别表情仍然是具有挑战性的。表情识别的目标是对给定的一张人脸图片,判断出这张图片所属的表情类别。由于表情识别是人机交互领域的一个重要话题,近些年来表情识别也受到越来越多的关注。近十年,一系列数据集和算法的开源推动这个领域飞速发展。表情识别数据集主要有两种类型,一种是实验室条件(即受控条件),一种是自然条件(非受控条件)。卷积神经网络(CNNs)在实验室条件下的数据集上的性能几乎接近饱和,但是自然条件下的识别结果并不尽如人意,主要是由于自然条件下的数据集中含有一定比例的遮挡,大姿态和标注不确定性的样本。本文将遮挡,大姿态和标准不确定性定义为挑战条件。这些挑战条件对人脸表情识别性能影响较大,但是受到关注较少,特别是在真实场景下关注更少。综上,解决好挑战条件下的表情识别问题是具有重大意义的。本文基于深度卷积神经网络,针对上述两种挑战条件下的人脸表情识别,分别提出两种有效方法。这些方法可以显著提升卷积神经网络在挑战条件下人脸表情识别的鲁棒性。具体来说,本文提出的两种方法如下:1.本文从以下几个方面探索遮挡和大姿态条件下的FER问题。首先,为了促进真实场景下遮挡和大姿态人脸表情识别的研究,我们收集和标注了六个具有姿势和遮挡样本的真实场景(In-The-Wild)人脸表情识别数据集。然后,提出了新颖的区域注意力网络(Region Attention Network),简称RAN。RAN首先将输入的原始人脸图片裁剪成几个区域,再把原始人脸和所有的人脸区域同时送入到神经网络提取特征。RAN含有两级注意力网络,分别是自我注意力网络和关系注意力网络。利用这两级注意力网络将所有区域人脸特征聚合成一个特征。最后,由于人脸表情主要是由于面部动作单元定义的,我们提出了区域偏置损失函数去对最重要的人脸区域给予一个高的权重。我们在收集的数据集和四个现有数据集上验证RAN和区域偏置损失函数的性能。后续实验表明,我们设计的RAN和区域偏置损失函数可以在遮挡和大姿态数据集上提升性能。我们的方法也在FERPlus,A ectNet,RAF-DB和SFEW上均实现最佳性能。2.本文提出了一个简单且有效的自我治愈网络(Self-Cure Network,SCN),SCN可以有效的抑制样本的不确定性带来的影响以及防止深度网络在不确定性的样本上过拟合。具体地,SCN从以下两个方面对不确定性进行抑制:一方面,在一批量(Batch Size)的样本里利用自我注意力机制学习到每个样本的重要性,并对重要性权值的分布进行排序正则化(Rank Regularization)操作。另一方面,对重要性低的样本进行谨慎地重标签操作。通过上述两个方面的操作,既可以让神经网络学习到更加鲁棒的特征表示,也可以在数据集中提取更多的干净样本。在合成的人脸表情数据集和我们收集的WebEmotion数据集上对我们方法的有效性进行了充分的验证。在几个公开的数据集上,我们的方法都实现了当前的最好的结果。