论文部分内容阅读
表情作为一种传递情绪状态和意图的非语言信号,在人际交流、人机交互、安全驾驶和在线教育等领域发挥着不可磨灭的作用。高效准确地识别人脸表情是一项充满挑战且意义非凡的任务。近些年已有诸多国内外学者和科研机构对其进行深入的研究,人脸表情识别也成为计算机视觉领域的热门课题。人脸表情识别是指计算机模拟人的思维和认知方式将提取的人脸表情特征进行分类,进而分析和理解人的情感状态。当前的人脸表情识别算法一般分为基于静态图片的人脸表情识别和基于动态视频序列的人脸表情识别,本文主要侧重于静态图片中的人脸表情识别。深度学习作为机器学习的一个分支,相较于传统机器学习算法需要人工设计和提取特征,深度学习能够以监督或非监督的形式自适应地学习多层次的判别性和鲁棒性较好的描述子。近年来它在目标检测、图像分类、图像检索、语义分割等计算机视觉任务中成绩斐然,各种性能优良的深度学习模型层出不穷。凭借卓越的表现深度学习征服了众多研究人员,成为人工智能领域热门的研究方法。本文利用深度学习技术开展对静态图片中人脸表情识别的相关研究。对深度学习理论和当前备受关注且性能优良的深度学习模型进行了充分研究和持续总结之后,本文对现有的模型进行了改进。在继承传统模型的诸多优点的基础上,融合注意力机制提升模型的鲁棒性和准确性。本文的主要工作分为以下几个部分1、为了尽量减少卷积神经网络池化层丢失部分信息的影响,本文提出一种轻量化的多尺度注意力卷积神经网络。该模型能够融合多个尺度卷积操作学习到的视觉特征,这些特征能够有效地传递到高层,使更高层可以同时整合和抽象不同尺度的特征。通过深度学习层次化连接的特性学习高度抽象化的语义特征,利用可判别性和鲁棒性较高的语义特征提升人脸表情识别的准确性。2、由于人脸不同区域的视觉信息对于人脸表情识别的作用各不相同,而传统的深度学习方法忽视了该问题,无差别地对待整个人脸区域,从整张人脸图像中提取固定维度的全局特征。为了有效利用人脸的局部特征,本文提出多通道卷积神经网络,该网络能够自适应地从完整的人脸表情图像和人脸部件(Facial Components)(例如:眼睛、嘴巴、鼻子等)图片中学习判别性优良的全局特征和局部特征。3、为了避免冗余信息和噪声信息对表情识别的影响,本文将注意力机制融入到深度卷积神经网络中,通过模型的迭代优化自适应地捕获不同人脸表情所涉及的不同显著性区域。这些显著性区域所包含的视觉信息能够被赋予不同的权重,从而有效的整合成判别性和鲁棒性较好的深度特征。4、当前的深度学习模型中一般采用SoftMax分类损失作为监督信号(Supervision Signal)来训练模型和优化参数,而SoftMax分类损失无法满足同时增大类内相似度和减小类间相似度的要求,本文通过设计新的损失函数-Regularized Center Loss、Improved Triplet Loss-和SoftMax分类损失联合使用作为模型训练的目标函数,使得类内聚合、类间分散,极大地提升了深度卷积神经网络学习到的特征的可判别性,从而较大幅度提升表情识别的效果。为了验证所提出的方法的有效性,本文在CK+和Oulu-CASIA等人脸表情数据库上进行对比实验,实验表明本文所提出的方法能显著提高人脸表情识别的准确度。