论文部分内容阅读
近年来随着人工智能技术的不断发展,人们希望计算机能拥有人一样的情感,为人类更加便捷地服务,情感识别就是其中一项关键技术。情感识别融合了语音信号处理、心理学、模式识别、视频图像处理等多种学科,可以应用于教育、交通、医疗等各个领域。由于单模态情感识别始终存在信息利用不足、识别准确率低等缺点,所以越来越多的研究人员将重点放到多模态情感识别。但是多模态情感识别中如何提取出有判别性的特征与信息的有效交互融合是其中的关键点。本文基于人机交互中最易获取的视频数据,从中分离出文本、语音与视频模态,并结合深度学习技术进行多模态情感识别研究。并针对多模态情感识别中的特征提取、模态交互与信息融合做出了探索与改进。本文的主要研究内容如下:(1)针对文本、语音和视频三种模态数据的预处理与特征提取技术分别进行了分析、比较和研究。文本数据的预处理以及特征提取使用的是GloVe embedding预训练模型处理,其目的是为了得到尽可能多的蕴含语义和语法信息的词向量矩阵。语音数据的预处理以及特征提取采用的是Covarep特征提取工具进行特征提取,其中最为重要的特征就是MFCC特征,另外还包括其他许多有效的时域特征与频域特征。对于视频数据的预处理与特征提取,采用最为先进的Openface2.0开源工具进行处理,得到68个人脸关键点、面部形状参数、头部姿势估计、视线估计、面部行为单元和Hog等特征。然后针对多模态信息时间交互的想法,使用P2FA对齐准则进行时间维度上的对齐,以及使用Z-score标准化对数据进行再次处理,加快基于梯度下降法的收敛速度,并提升模型的精度。(2)提出了基于双重注意力机制(Double Attention Network,DAN)与门控记忆网络(Gated Memory Network,GMN)的多模态情感识别算法。首先针对多模态数据,我们使用了循环神经网络中的LSTMs编码系统,目的是为了处理三个模态的时序数据。然后,针对LSTMs编码系统,提出了改进注意力机制(Delta-Time Attention Network,DTAN),意在发现LSTM系统中不同维度的记忆信息之间的模态交叉和时间交互。接着,自然而然地提出门控记忆网络GMN对DTAN的模态、时间交互信息进行更新与保存的方法。其中,实验表明由神经网络组成的门控机制具有更强的表达能力,并有助于模型收敛。最后,使用(Global-Time Attention Network,GTAN)全局注意力机制对各个模态的不同帧进行相关性计算,以此分配大小不同的权重,促进模型聚焦于对感情识别效果更为重要的帧,并对DTAN与GMN进行信息补充,使整个模型的表达能力更强。(3)通过对单模态情感识别、双模态情感识别、消融对比实验以及多种基准方法的实验对比,进行结果验证。基于实验,分析得出双模态相较于单模态的识别效果更好,三模态相较双模态的识别效果更好,证明了额外模态的引入会显著提高情感识别精度。针对三个特有的组件DTAN、GMN以及GTAN做了消融对比实验,通过实验结果分析,得出每一个组件都对提升多模态情感识别的整体效果有明显的帮助。本论文方法在MOSI数据集上达到了 77.4%的2分类准确率,在MOSEI上达到了 83.1%的6分类准确率,达到了目前最好的识别准确率,说明了本文模型的可行性与有效性。