音视频融合的情感识别技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:hbhhl2006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
情感识别技术是一项通过分析处理语音信号、视觉信号和生理信号来识别人的情感状态的技术。作为人工智能领域的一个重要分支,情感识别技术在自然人机交互、疾病诊断和监控、公共安全等领域有着广泛的应用。近年来,随着心理学、生理学、神经科学及计算机技术的发展,无论是基于语音还是基于视觉信号的情感识别技术都取得了显著的进步。但是由于情感识别的复杂性和应用场景的多样性,单一模态的情感识别技术很难满足现实的应用需求。因而,将音视频信号相融合的情感识别技术逐渐受到国内外研究人员的广泛关注。本文以音视频融合的情感识别技术为研究目标,分别针对维度情感识别和基本情识别技术中的若干关键问题进行了研究。论文的主要研究内容可分为以下四个方面:  针对维度情感识别的时序建模问题,本文提出了一种基于特征层建模和决策层建模相结合的多尺度时序建模方法。在特征层,本文采用具有时序池化层的深度置信网络(DBN-TP)来学习序列中连续多帧数据的特征表示,以实现短跨度的时序建模。DBN-TP与维度情感识别领域领先的识别算法——具有长短时记忆能力的循环神经网络(LSTM-RNN)相比,在情感评测数据集上取得了明显的领先结果。在决策层,本文将时序建模与多模态决策层融合相结合,提出了一种多模态时序融合方法。该方法通过同时融合来自多组特征以及各组特征不同时刻的预测结果,实现了更长跨度的时序建模,并与特征层的时序建模实现相互补充。本文所提出的多尺度时序建模方法在2014年举办的音视频融合的情感识别公开评测(AVEC2014)中取得了评测第二名的成绩。  针对维度情感识别的标签噪声问题及标签数据采样率过高的情况,本文以LSTM-RNN模型为基础,分别从优化目标和识别模型的角度出发,提出了针对性的改进措施。对于标签噪声问题,通过调研回归问题中常用的多种损失函数,本文发现ε不敏感损失函数对离群点的线性惩罚提高了识别模型对带有噪声的标签数据的鲁棒性。同时,其对较小误差的选择性“忽略”有助于识别模型获得与标签数据相关性更强的预测值。针对维度情感识别中标签数据采样率过高的问题,本文在以LSTM-RNN为基础的识别模型中引入了时序池化层。该解决方案通过同时缩短标签数据和待预测数据的序列长度,解决了由于标签数据信息冗余所造成的模型建模时间跨度过小的问题,同时提升了模型的收敛速度。基于以上两个关键点,本文所提算法在AVEC2015公开评测中取得评测第二名的成绩,并且在AVEC2014数据集上取得了具有竞争力的实验结果。  针对基本情感识别中特征序列的数据编码问题,本文提出了基于LSTM-RNN的序列编码方式,并同时调研了两种基于LSTM-RNN的编码方式——均值编码和最后时刻编码。在与传统的池化编码方式和时序池化编码方式的比较中,基于LSTM-RNN的均值编码方式凭借其对特征序列动态信息的有效利用,获得了所有编码方式中的最优实验结果。同时,本文还比较了来自于卷积神经网络(CNN)模型不同深度的卷积层特征在情感识别任务上的识别结果。结果显示,来自于不同深度的卷积特征存在着一定的信息重复性。基于上述编码方式,本文实现了音视频数据特征层融合的基本情感识别方法。  针对基本情感识别中音视频数据的时序耦合信息难以建模应用和特征序列的数据编码问题,本文在LSTM-RNN模型的基础上,利用软注意力机制分别提出了有针对性的解决方案。在音视频数据时序耦合信息建模方面,本文在软注意力机制下,根据音频数据帧和视频数据帧之间的相关性确定时序对齐分数,实现了音视频数据的自动时序对齐,进而将时序耦合信息应用到识别模型中。在特征序列的数据编码方面,本文从人类对情感数据的感知过程得到启发,提出了利用软注意力机制,根据模型中所添加的情感嵌入向量去定位序列中的情感显著性片段,并根据数据片段的情感显著性程度进行加权融合的编码方式。最后,本文将上述两个关键点实现在统一的模型框架下。本文还通过相应的定性及定量实验验证了上述两个关键点的有效性。
其他文献
行为识别是计算机视觉领域的一个重要分支,在机器人视觉、智能视频监控、人机交互、医疗护理、虚拟现实及游戏控制等领域有着广泛应用前景,其研究目的主要是让计算机通过摄像机
异质关系数据(Heterogeneous Relational Data)(如社交网络,知识图谱,基因-蛋白质作用网络中的数据)正成为信息产业的主流数据形式以及大数据的重要构成部分,具有丰富的语义价值。
本文首先对谐振软开关技术的研究现状和各种主要的拓扑结构进行了分析、综合、总结,指出了各自的优缺点;着重对并联谐振直流环电路的工作原理、电路工作模式、软开关实现机理
非线性现象是在工程技术、科学研究以至自然界及人类社会活动的各个领域普遍存在的问题。非线性系统辨识成为目前国内外众多学者致力研究的一个热点问题。RBF 神经网络理论为
本文基于生物免疫系统原理,对人工免疫系统进行了研究,提出了改进的免疫遗传算法,对改进的免疫遗传算法的设计进行了分析,证明了算法的收敛性;并根据蚂蚁觅食原理,对蚁群算法
随着Web2.0技术的快速发展,以微博、评论、论坛等为代表的社会媒体平台以其内容丰富、交互便捷等特点深受用户喜爱。在该平台上,用户可以对热点事件发表观点,对产品进行评分,参与
随着世界经济的发展,环境污染日趋严重,环境保护已经成为各国主要研究课题。因此,近年来气体浓度检测仪成为各国传感器技术领域研究的热点和重点。环境污染的有效监测与控制,需要
计算神经解剖的目的在于使用计算方法和影像设备对神经系统的发育、变化进行模拟和定性/定量研究。磁共振是计算神经解剖研究的重要工具,它能无创的、动态的研究神经系统结构
倒立摆系统是非线性、强耦合、多变量、自然不稳定的系统。在控制过程中,它能有效地反映诸如可镇定性、鲁棒性、随动性以及跟踪等许多控制中的关键问题,是检验各种控制理论的
本论文的研究内容主要包括五个方面:(1)掌握棉花纤维和异性纤维在物质组成和分子机构上的差别,根据各种光谱分析的特点,选择最佳的光谱分析方法。(2)在选定光谱分析的方法后,根据