基于深度学习的视频情感识别研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:a306783805
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为表达情感的一种方式,表情是比较自然和直接的,它在我们的日常生活中扮演者非常重要的角色,在某些场合中,表情有时比语言更能有效的传达出内心的真实情感。表情的产生是一个动态变化的过程,在单张静态图片中,通常包含的特征信息有限,而在视频序列中呈现的表情,则提供了更加充分的上下文信息,表情产生的机理得到进一步的满足,在研究过程中提供的信息会更加丰富,在计算机方面技术正快速进步,基于图像序列的情感研究得到越来越多的重视。本文的研究重点是视频序列,为了能高效提取视频序列中的时空特征信息,提出了相关算法,论文的具体工作内容如下:(1)提出一种加权双流网络模型。使用传统方法进行提取表情特征时,算法提取的特征通常是设定在固定空间内,鲁棒性能有待进一步提高,随着深度学习的发展和公开数据集的增加,可以很好的解决类似问题。在单流卷积网络中,通常关注的重点是空间特征,忽略了视频序列中存在的上下文信息,而双流网络模拟人体视觉过程,在处理空间信息的同时,对视频中的时序信息也有更好的理解,所以使用双流网络作为模型结构,同时为了更好的获取图像序列中帧与帧之间隐藏的时间信息,在模型中加入LSTM网络结构,双流网络模型中,其中一个网络流输入原始图像,另一个网络流输入处理货梯度边缘检测图,最终的结果是两个网络结果的加权融合,在公开人脸表情数据集上实验,最终结果表明了该网络结构的准确性。(2)在视频序列中,每张图片包含的表情强度是不一致的,针对每张图片的贡献不同,应当使用合适的方法进行区分,本文提出一种结合注意力机制的视频表情识别网络,使用端到端的CNN-RNN网络结构,在RNN网络之后使用注意力机制,具体来说使用的CNN是Resnet,RNN结构是双向LSTM网络结构。网络的主要工作流程是将卷积部分学习到的高级抽象特征,传送到双向LSTM网络中进行学习视频序列间的时间依赖关系,得到视频序列的最终表示后,最后使用注意力机制,增加重要特征的权重系数,减少次要特征的影响,在CK+和MMI库上的实验,表明了该章网络的正确性。
其他文献
20世纪90年代以来,民族地区农村处在诸多利益分化调整时期,各种利益要素的分配调节出现失衡,民族间的物质利益需求矛盾与文化差异矛盾纠结在一起,使农村进入新一轮的矛盾多发
本文介绍的接口电路是为《713雷达回波信号实时数字处理系统》设计的。接口电路包括雷达触发脉冲、天线方位零度和仰角零度信号的波形与幅度变换电路以及雷达接收机输出的回
以大别山东段长年和短年的年旬降水量资料,推算考察点的长年旬雨量理论概论分布。计算表明由间接模式仅据二、三年考察资料所得理论分布与直接由长年代记录所估算的理论分布十
目前,鸡大肠杆菌病作为一种重要的细菌性传染病,对我国养鸡业造成了严重危害。根据信阳市疫病检测工程中心(信阳农林学院市级工程中心)对豫南地区主要养鸡集中区的调查,在规
慢性胃炎是临床上的常见病、多发病,笔者根据其临床表现和胃镜的检查结果,以气血相关理论为纲,按照辨证与辨病相结合的原则,以气血同治为大法,经临床治疗与观察,对提高“证”及“病
文化问题的研究具有时代性。在新时代,文化自信是基于近代先进的中国人在民族苦难和奋斗中体现出的中华民族自强和文化自觉的展示,又是当代中国面临的民族伟大复兴对文化自信
通过测定32种多硝基芳烃的静电火花感度,建立了50%发火能量EES与爆速平方值的关系式。试式不仅体现出Evans-Planyi-Semenov关系,而且 起爆、初始分解或由静电火花引起的能量转换过程中多硝基化合物分子初始
临床资料所有病例均为2002年3月至2003年3月间在我科住院患儿,均符合肺炎诊断标准(实用儿科学1995第6版吴瑞萍主编),随机分为两组,治疗组60例,男32例,女28例;年龄最小6个月,
针对海洋平台主体结构焊缝的交流电磁场检测技术(ACFM),提出了一种横向、纵向以及斜向裂纹缺陷信号的识别方法。基于ACFM技术原理,分析了横向以及纵向裂纹缺陷检测信号Bx、Bz特
综述了用于固体推进剂配方中的工艺助剂,论述了选择工艺助剂的一般原则;流变学基本要求,表面张力相近要求,极性,溶度参数及反应动力学相近要求,就推进剂用工艺的研制方向提出了一些