论文部分内容阅读
自然人机交互技术是当前计算机应用技术研究的重要方向,情感的自动识别是实现自然人机交互的关键技术之一。考虑到卷积神经网络可以同时进行图像特征提取和模式分类,且局部连接和权值共享这两大机制可以减少训练参数,因此,在对卷积神经网络理论进行深入研究的基础上,为避免传统方法中特征提取等复杂过程,本文将卷积神经网络应用于情感识别领域。本文基于卷积神经网络提出一种新的可以分别用于语音情感识别和人脸表情识别的算法,然后提出一种多模态融合的情感识别算法。本文主要研究内容如下:(1)卷积神经网络理论的研究。分析了卷积神经网络的基本原理及参数学习算法,为本文将卷积神经网络与情感识别相结合提供理论基础。(2)提出一种新的基于声谱图和卷积神经网络的语音情感识别的算法。由于声谱图是能够反映语音时频特征的二维图像,为了解决传统识别算法中特征提取复杂以及特征质量不佳等问题,提出将声谱图作为卷积神经网络的输入数据。利用卷积神经网络对声谱图特征进行自动学习,实现对声谱图端到端的处理,进行有监督学习和训练以得到相应的网络模型。通过在CASIA汉语情感语料库和德国柏林语料库上分别进行实验,对应的语音情感识别率分别可达到79.6%和77.8%,表明该算法的可行性。(3)提出一种融合语音和人脸表情的情感识别算法。由于人类情感的表达是通过多种形式同时进行的,单一形式的情感识别具有一定的局限性,故本文利用不同模态之间的互补性,提出一种基于语音和人脸表情进行多模态情感识别的算法。即利用卷积神经网络自动学习人脸表情和声谱图的特征,用经过训练的网络模型对测试样本进行识别,得到相应的识别结果,然后进行决策级融合求其最终识别结果。在e NTERFACE’05音视频多模态情感数据库上进行融合实验,识别结果最优可达84.8%,识别系统的整体性能得到一定改善。