论文部分内容阅读
作为人类情感行为理解的一种基本方式,在过去的十几年内,语音情感识别已经吸引许多相关领域研究者的关注。虽然语音情感特征提取和分类器设计已经取得进步,然而由于说话人和内容的差异,以及环境扰动等因素的影响,设计具有鲁棒性的语音情感识别系统仍然是一个具有挑战性的问题。另外,目前先进的语音情感识别系统都严重依赖于一个共同的假设,即训练数据和测试数据来源于同一种分布。然而在现实应用中,来自不同域的语音信号在说话人、语言、情感类型、录制环境以及使用的标记方法等方面具有一定差异。因此急需研究容忍说话人、说话内容变化以及环境因素干扰的显著情感特征学习或提取方法以及语音情感特征迁移学习方法。 深度学习方法能够从输入信号中学习出非常有效的信号的层次非线性表示,并且成功运用到语音识别、图像理解等相关领域之中。受此思想的启发,对无监督语音情感特征学习方法进行分析,并提出基于卷积神经网络的语音情感显著特征学习方法和基于PCANet的语音情感特征迁移学习方法。所学习显著的语音情感特征能够在复杂场景下(如说话人和语言差异,环境因素扰动等)获得稳定和鲁棒的系统性能,并能解决跨库引起的域间差异问题。具体研究内容与创新点如下: 1)采用无监督学习方法对语音情感特征进行学习和分析,采用几种典型的无监督特征学习算法(稀疏自动编码器,稀疏受限玻尔兹曼机,K均值聚类)对无标注情感样本进行学习以发现与情感相关的特征。同时,对模型所涉及到的参数如:块(patch)大小与隐层结点数量等超参数的选择进行详细的分析和比较。该部分工作对语音情感特征的自动学习和提取具有很好的参考作用。 2)提出基于卷积神经网络的语音情感特征学习新方法。该方法分为两个阶段。第一阶段采用无标注样本训练稀疏自动编码器学习得到局部不变特征。在第二阶段将局部不变特征作为特征提取器的输入,并在目标函数中引入体现正交性、显著性和可区分性惩罚项。从而将情感无关的特征从语音信号中分离出来,学习得到情感变化相关的、显著的语音情感特征。在四个公开数据集(SAVEE,Emo-DB,MES,DES)上的实验结果表明提出的特征学习方法在复杂环境下(说话人与语言变化,环境扰动等)产生稳定和鲁棒的特征表示,同时在识别准确率上超过传统手工提取的情感特征。 3)提出基于PCANet的语音情感特征迁移学习新方法。该方法通过PCANet(一种深度网络)尝试学习产生从源域到目标域路径上多种中间特征表示,同时利用目标域特征空间对路径上的其他特征空间进行矫正以控制它们用一种正确方式往目标域靠近。在三个公开数据库上(源库:ABC,Emo-DB以及FAU AEC Ohm;目标库: FAU AEC Mont)的结果表明提出的语音情感特征迁移学习方法在召回率方面优于传统机器学习方法。