论文部分内容阅读
情感识别技术是一项通过分析处理语音信号、视觉信号和生理信号来识别人的情感状态的技术。作为人工智能领域的一个重要分支,情感识别技术在自然人机交互、疾病诊断和监控、公共安全等领域有着广泛的应用。近年来,随着心理学、生理学、神经科学及计算机技术的发展,无论是基于语音还是基于视觉信号的情感识别技术都取得了显著的进步。但是由于情感识别的复杂性和应用场景的多样性,单一模态的情感识别技术很难满足现实的应用需求。因而,将音视频信号相融合的情感识别技术逐渐受到国内外研究人员的广泛关注。本文以音视频融合的情感识别技术为研究目标,分别针对维度情感识别和基本情识别技术中的若干关键问题进行了研究。论文的主要研究内容可分为以下四个方面: 针对维度情感识别的时序建模问题,本文提出了一种基于特征层建模和决策层建模相结合的多尺度时序建模方法。在特征层,本文采用具有时序池化层的深度置信网络(DBN-TP)来学习序列中连续多帧数据的特征表示,以实现短跨度的时序建模。DBN-TP与维度情感识别领域领先的识别算法——具有长短时记忆能力的循环神经网络(LSTM-RNN)相比,在情感评测数据集上取得了明显的领先结果。在决策层,本文将时序建模与多模态决策层融合相结合,提出了一种多模态时序融合方法。该方法通过同时融合来自多组特征以及各组特征不同时刻的预测结果,实现了更长跨度的时序建模,并与特征层的时序建模实现相互补充。本文所提出的多尺度时序建模方法在2014年举办的音视频融合的情感识别公开评测(AVEC2014)中取得了评测第二名的成绩。 针对维度情感识别的标签噪声问题及标签数据采样率过高的情况,本文以LSTM-RNN模型为基础,分别从优化目标和识别模型的角度出发,提出了针对性的改进措施。对于标签噪声问题,通过调研回归问题中常用的多种损失函数,本文发现ε不敏感损失函数对离群点的线性惩罚提高了识别模型对带有噪声的标签数据的鲁棒性。同时,其对较小误差的选择性“忽略”有助于识别模型获得与标签数据相关性更强的预测值。针对维度情感识别中标签数据采样率过高的问题,本文在以LSTM-RNN为基础的识别模型中引入了时序池化层。该解决方案通过同时缩短标签数据和待预测数据的序列长度,解决了由于标签数据信息冗余所造成的模型建模时间跨度过小的问题,同时提升了模型的收敛速度。基于以上两个关键点,本文所提算法在AVEC2015公开评测中取得评测第二名的成绩,并且在AVEC2014数据集上取得了具有竞争力的实验结果。 针对基本情感识别中特征序列的数据编码问题,本文提出了基于LSTM-RNN的序列编码方式,并同时调研了两种基于LSTM-RNN的编码方式——均值编码和最后时刻编码。在与传统的池化编码方式和时序池化编码方式的比较中,基于LSTM-RNN的均值编码方式凭借其对特征序列动态信息的有效利用,获得了所有编码方式中的最优实验结果。同时,本文还比较了来自于卷积神经网络(CNN)模型不同深度的卷积层特征在情感识别任务上的识别结果。结果显示,来自于不同深度的卷积特征存在着一定的信息重复性。基于上述编码方式,本文实现了音视频数据特征层融合的基本情感识别方法。 针对基本情感识别中音视频数据的时序耦合信息难以建模应用和特征序列的数据编码问题,本文在LSTM-RNN模型的基础上,利用软注意力机制分别提出了有针对性的解决方案。在音视频数据时序耦合信息建模方面,本文在软注意力机制下,根据音频数据帧和视频数据帧之间的相关性确定时序对齐分数,实现了音视频数据的自动时序对齐,进而将时序耦合信息应用到识别模型中。在特征序列的数据编码方面,本文从人类对情感数据的感知过程得到启发,提出了利用软注意力机制,根据模型中所添加的情感嵌入向量去定位序列中的情感显著性片段,并根据数据片段的情感显著性程度进行加权融合的编码方式。最后,本文将上述两个关键点实现在统一的模型框架下。本文还通过相应的定性及定量实验验证了上述两个关键点的有效性。