论文部分内容阅读
人脸表情识别是人脸识别的一个重要组成部分,该方向已经成为人机交互领域的研究热点,广泛应用于疲劳驾驶、在线教学、测谎、娱乐等行业。人脸表情识别涉及了心理学、生物学、统计学、计算机学等多个学科,是一个非常新颖且有研究价值的方向。当前人脸表情识别数据的采集逐渐从实验室转向真实场景(受光照、遮挡、姿态等多种因素混合干扰),导致表情识别的难度大大增加,在此背景下,我们旨在搭建并训练出适合真实人脸表情视频数据的神经网络模型,用以提高人脸表情识别的准确性和实用性,具体工作内容如下:(1)考虑卷积神经网络(Convolutional Neural Network,CNN)有助于提取数据平移不变特征,循环神经网络(Recurrent Neural Network,RNN)有助于分析连续序列数据间的时间信息,受此启发,本文搭建了端到端的CNN-LSTM网络模型,用于识别人脸表情视频数据。首先,CNN部分使用经典的VGG-16卷积网络提取每帧人脸表情特征,RNN部分使用长短期记忆网络(Long Short-Term Memory,LSTM)分析帧间表情变化差异;其次,针对CNN和LSTM模块分开训练时反向传播无法更新CNN权重的问题,本文进行了端到端CNN-LSTM网络训练,用以充分利用帧不变特征和帧间相关信息;最后,采用双层LSTM网络以及LSTM层间的跨层连接用以保证深层网络特征有效传输,降低了梯度消失的风险。在数据集AFEW和CK+上实验表明,端到端网络训练和LSTM模块的优化有效提高了视频表情识别准确率。(2)鉴于真实数据中人脸表情复杂多变,需要神经网络能够提取更准确的表情特征信息,本文在端到端CNN-LSTM网络模型的基础上对CNN模块进行改进,提出了特征增强型CNN-LSTM网络模型。首先,在主干CNN模块的中间层引出一条特征提取支路,并将其与主干CNN模块深层特征相融合,用于获取更丰富的人脸表情细节特征;其次,为了进一步弥补图像局部纹理特征损失,在主干CNN模块的全连接层还增加了 LBP特征,用于进一步丰富人脸表情特征信息。分别在FER2013和SFEW两个静态数据集和AFEW和CK+两个动态数据集上进行实验仿真,结果表明,CNN模型中不同网络层特征的融合有助于更准确描述人脸表情特征,提高了表情识别的准确率。(3)考虑到端到端CNN-LSTM网络模块具有较高的计算复杂度,使得模型对实验硬件要求较高且训练时易发生过拟合现象。针对该问题,本文使用复杂度更低的全局平均池化(Global Average Pooling,GAP)层和自注意力(Self-Attention,SA)网络分别替换 CNN 模块的全连接层和LSTM模块,提出一种基于CNN-SA的网络模型。首先,序列图像输入CNN-GAP网路进行特征提取得到多组特征向量;然后,自注意力模块通过计算特征间的相关性得到注意力权重,根据注意力权重对特征进行加权后输出新特征向量组;最后通过全连接层、激活函数层、DropOut层等网络计算出各表情概率值。在AFEW数据集和CK+数据集上的实验表明,CNN-SA网络在降低复杂度的同时,识别率与特征增强型CNN-LSTM效果相当。