论文部分内容阅读
情感识别是构建智能人机交互系统的重要环节,可以在教育、安全救助、个人娱乐等领域发挥重要作用。通常情况下人类通过语音,人脸表情等多模态信号表达情感。传统的单模态情感识别系统首先从信号中提取手工设计的特征,然后用这些特征训练分类器。但是这种手工设计的特征并不能充分表征情感信息,这限制了传统方法的系统性能。近年来随着深度学习的发展,基于深度学习的情感识别系统展现了其优越性。目前基于深度学习的情感识别系统往往采用卷积神经网络或长短时记忆网络等直接用于语音或视频输入。这些方案没有考虑到情感的稀疏特性,即在一段长信号中情感往往仅存在于局部片段,因此这些方案并不高效。常见的多模态情感识别系统通过判决层融合多个单模态系统的分类结果或在系统中间层采用拼接等线性方案进行融合。这些方案并不能有效挖掘多模态之间的深层关系。为了解决以上两个问题,我们开展了本研究课题。首先,我们提出了一种基于注意力机制的全卷积网络用于语音情感识别。通过全卷积网络处理语音频谱,避免了对语音频谱的长度规整。注意力机制检测频谱中不同时频区域与情感信号的相关性并按照相关性分配权重,令系统聚焦于与情感相关的时频区域。同时,为了处理语音情感数据稀少问题,我们引入迁移学习训练系统。此外我们引入了带系数的softmax函数来处理这种小数据集带来的注意力机制训练问题。我们的系统在IEMOCAP数据集上达到了最好的结果。我们通过频谱的注意力权重图发现注意力机制能够忽略静音段,并按照频谱不同时频区域与情感的关系为其分配权重。通常,在高频区域注意力权重比较小。其次,我们将注意力机制引入视频情感识别任务。我们通过注意力机制检测视频中不同帧与情感的相关性并按照其相关性分配权重。促使系统关注与情感相关的视频帧。我们采用带系数的softmax函数来处理这种小数据集带来的注意力机制训练问题。我们在AFEW8.0数据集的视频数据上验证了注意力机制的有效性。我们通过分析视频的注意力机制权重图发现注意力机制能够忽略视频中的异常帧,并按照不同帧与情感的相关性分配权重。最后,我们整合上文提到的语音情感识别系统和视频情感识别系统。并采用分解的双线性池化融合语音情感特征和视频情感特征。我们的系统在AFEW8.0音视频数据集上达到了最好的结果。我们通过对比视频情感识别系统注意力机制权重图与音视频融合系统的视频子系统注意力机制权重图,发现在我们的系统中音频信号由于双线性池化和联合训练会对视频系统产生影响,即我们的系统实现了视频信息和音频信息的深层融合。