论文部分内容阅读
源于人工智能领域语音处理技术的飞速发展,人们希望可以和机器进行更自然、贴切的交流。语音情感识别是继语音识别之后,人机交互中的又一热点问题,得到了研究者们广泛的关注。近年来,随着心理学、生理学、神经科学、认知科学和计算机科学的发展,探究符合人类情感表达相关联的新特征,是当前研究领域内十分重要的研究课题。但目前在维度语音情感识别方面的研究较少,而且没有公开认可的维度语音情感特征集和高效的分类方法。在维度语音情感特征集的构建方面,本文提取了维度语音情感识别常用的韵律学特征、音质特征和基于谱的特征,另外根据Teager等人实验发现的语音非线性产生模型,结合梅尔听觉心理认知规律,我们提取了非线性Teager_Mel特征。这样提取的特征既可以考虑到语音产生的过程的非线性,同时也综合了人耳听觉的心理效应,分别在公开的情感语料库DISEC和VAM进行了实验,结果表面基于Teager非线性理论提取的特征识别效果要优于在语音处理中常用的梅尔倒谱系数。在上面提取的维度语音情感特征集的基础了,我们对此特征集做了一系列的后处理。传统的维度语音情感识别系统都是采用全局统计特征,即将提取的全句的帧特征进行统计,然而这种划分的方式有可能造成韵律学细节信息的丢失,所以本文研究了更加合适的情感识别单元,在语段粒度上进行各种统计量的计算。同时我们考虑到人脑对情感认知处理的三阶段过程,即酝酿阶段、情感充分表达阶段和情感收尾阶段。将这种认知过程的起伏变化用数学上的高斯函数进行模型化,这样我们得到了窗特征。为了能从人脑处理语音情感信号的角度出发,同时考虑到语音的时序信息,本文提出了一个基于认知机理的回馈神经网络(CMRNN),并将CMRNN应用于维度语音情感识别。我们考虑到基于认知机理的反馈神经网络既可以综合短时帧上的情感特征,又可以融合长粒度的段统计特征和窗特征。与传统的语音情感识别系统相比,我们不仅探究了合适的情感表达时长,而且将短时帧特征和较长时的段特征和窗特特征融合体现在分类器的处理过程中,实现了时序信息对情感识别的补声道充作用。最后,我们用基于认知机理的回馈神经网络进行维度语音情感识别,在VAM维度语料库上进行了测试,在情感的三个维度,平均得到0.66相关性。同时,语段特征和情感认知窗特征在维度情感识别上有不同程度的提高,较之前的全局统计特征,在情感的效价维提高了16%,证明了网络的有效性。