基于深度学习的视频人脸表情识别研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:shi123abc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人脸表情识别是人脸识别的一个重要组成部分,该方向已经成为人机交互领域的研究热点,广泛应用于疲劳驾驶、在线教学、测谎、娱乐等行业。人脸表情识别涉及了心理学、生物学、统计学、计算机学等多个学科,是一个非常新颖且有研究价值的方向。当前人脸表情识别数据的采集逐渐从实验室转向真实场景(受光照、遮挡、姿态等多种因素混合干扰),导致表情识别的难度大大增加,在此背景下,我们旨在搭建并训练出适合真实人脸表情视频数据的神经网络模型,用以提高人脸表情识别的准确性和实用性,具体工作内容如下:(1)考虑卷积神经网络(Convolutional Neural Network,CNN)有助于提取数据平移不变特征,循环神经网络(Recurrent Neural Network,RNN)有助于分析连续序列数据间的时间信息,受此启发,本文搭建了端到端的CNN-LSTM网络模型,用于识别人脸表情视频数据。首先,CNN部分使用经典的VGG-16卷积网络提取每帧人脸表情特征,RNN部分使用长短期记忆网络(Long Short-Term Memory,LSTM)分析帧间表情变化差异;其次,针对CNN和LSTM模块分开训练时反向传播无法更新CNN权重的问题,本文进行了端到端CNN-LSTM网络训练,用以充分利用帧不变特征和帧间相关信息;最后,采用双层LSTM网络以及LSTM层间的跨层连接用以保证深层网络特征有效传输,降低了梯度消失的风险。在数据集AFEW和CK+上实验表明,端到端网络训练和LSTM模块的优化有效提高了视频表情识别准确率。(2)鉴于真实数据中人脸表情复杂多变,需要神经网络能够提取更准确的表情特征信息,本文在端到端CNN-LSTM网络模型的基础上对CNN模块进行改进,提出了特征增强型CNN-LSTM网络模型。首先,在主干CNN模块的中间层引出一条特征提取支路,并将其与主干CNN模块深层特征相融合,用于获取更丰富的人脸表情细节特征;其次,为了进一步弥补图像局部纹理特征损失,在主干CNN模块的全连接层还增加了 LBP特征,用于进一步丰富人脸表情特征信息。分别在FER2013和SFEW两个静态数据集和AFEW和CK+两个动态数据集上进行实验仿真,结果表明,CNN模型中不同网络层特征的融合有助于更准确描述人脸表情特征,提高了表情识别的准确率。(3)考虑到端到端CNN-LSTM网络模块具有较高的计算复杂度,使得模型对实验硬件要求较高且训练时易发生过拟合现象。针对该问题,本文使用复杂度更低的全局平均池化(Global Average Pooling,GAP)层和自注意力(Self-Attention,SA)网络分别替换 CNN 模块的全连接层和LSTM模块,提出一种基于CNN-SA的网络模型。首先,序列图像输入CNN-GAP网路进行特征提取得到多组特征向量;然后,自注意力模块通过计算特征间的相关性得到注意力权重,根据注意力权重对特征进行加权后输出新特征向量组;最后通过全连接层、激活函数层、DropOut层等网络计算出各表情概率值。在AFEW数据集和CK+数据集上的实验表明,CNN-SA网络在降低复杂度的同时,识别率与特征增强型CNN-LSTM效果相当。
其他文献
提出了3种杂交水稻幼穗分化时期判断的新方法。杂交水稻幼穗分化前后出现的双零叶、葫芦叶和伸长叶枕距可作为判断幼穗分化8个时期的植株形态特征标志
保险业作为金融业的一个重要分支,自八十年代初恢复国内业务以来得到长足发展,与银行业、证券业共同成为金融业的三大支柱,在整个国民经济运行中处于重要地位。2001年年底,我
随着城市居民饮食生活水平的提高和工业的快速发展,餐厨垃圾的产生量及CO2的排放量与日俱增,大量的含碳资源亟待循环利用。微波热解作为新型的固废热解技术,因其特有的高效加
中小企业会计电算化是中小企业信息化的重要组成部分,本文主要介绍了财务AsP的特点,分析了中小企业实现会计电算化的存在的问题,提出ASP是中小企业实现会计电算化的有效途径。
同型半胱氨酸(homocysteine,Hcy)是一种含硫非必需氨基酸,它在甲硫氨酸合成酶、胱硫醚β合成酶等作用下参与一碳代谢,Hcy代谢相关酶基因缺陷或饮食不均、衰老等因素可导致血浆Hcy浓度升高。大量流行病学和临床研究显示,血浆Hcy浓度升高是神经退行性疾病的风险因素。神经退行性疾病又与神经细胞遗传损伤增加和细胞死亡密切相关。高Hcy是否会诱发人神经细胞遗传损伤并引起细胞死亡还鲜有报道。本研究
能源短缺和能源转型促进了可再生能源快速发展。风电作为当前最具规模化利用的清洁可再生能源发电方式,具有良好的发展前景和研究价值。风电机组在运行过程中,存在不同部件绕
京津冀地区作为国务院提出的要在“十三五”期间建设的三大世界级城市群之一,一直饱受大气环境污染的困扰,这对当地人民健康和城市形象造成了长期的负面影响。为使大气环境得
随着我国掀起大学城建设和迁建热潮,针对多校一面、新校区与原校区空间历史文脉断裂缺失等现象,以铁道警察学院校区建设为例,探讨基于文脉传承的公安类院校景观规划设计研究
由于面部表情是最有效的非语言交流方式,且能很好地流露情绪、心态和意图,因此,其识别与检测技术逐渐引起学术界和工业界的关注。然而,传统的表情识别算法的识别准确度和鲁棒
川东北元坝地区由于地质条件复杂,多次发生井漏、坍塌、溢流等复杂井况与事故,严重影响施工周期。本文利用GMI井壁稳定性软件,依据元坝11井钻井、测井及地质资料,计算了元坝1