论文部分内容阅读
语音作为最容易获取情感信息的载体之一,它承载和传达着多层次的信息源。人们日常交流过程中使用语言传递的信息量非常多,不仅有语言自身的语义信息,还有说话人当时所处情感状态的表达。因此,社交互动中情感的感知对于推断对方的情感状态和意图是很重要的。情感语音识别作为情感计算的有效手段,它是基于语音信号的发声原理,通过提取表征语音信号中的有效情感特征参数,让计算机以尽可能符合人类的方式将这些特征参数与情感状态之间进行正确的关联与映射,从而实现情感类别判断的一门新兴技术。本文从情感语音识别的研究背景和意义出发,详细介绍了情感语音识别和非线性特征的研究动态及存在的不足。针对当前情感语音识别中特征参数表征情感信息的不全面性,提出了从微观的角度分析情感语音相空间重构的几何特性和基于维度空间的特征优化方法。论文的研究内容如下:(1)介绍了情感语音识别系统的基本组成。针对预处理操作和典型传统情感声学特征(韵律特征、音质特征和MFCC特征)的提取进行了理论介绍和实验仿真,并选取EMO-DB情感语音库为实验数据、支持向量机为识别模型,搭建了基于声学特征的情感语音识别系统。(2)以语音信号产生机制存在非线性为依据,对情感语音信号进行非线性时序分析,即采用相空间重构技术将同一语义不同情感状态的一维情感语音信号映射至高维相空间中,通过在高维相空间中表现出的差异性验证了情感语音信号的非线性产生机制,为下一步提取情感语音信号系统的非线性特征提供实验基础。为了从宏观的角度分析情感语音信号系统的状态变量,本文提取了基于相空间重构的非线性属性特征,并根据这些特征参数在同一语义不同情感状态上的不同表现对它们区分情感状态的能力进行了有效性验证。(3)从情感语音信号的非线性产生机制出发,通过从微观的角度分析相空间下吸引子骨架结构的几何指标,进而提取了基于相空间重构的非线性几何特征(五种基于轨迹的描述符轮廓)。定性地分析了五种基于轨迹的描述轮廓符与情感状态之间的关联性,从而验证了它们能够作为区分情感状态的有效新特征。对韵律特征、音质特征、MFCC特征、非线性属性特征和非线性几何特征分别进行情感语音识别,实验证明了非线性属性特征和非线几何特征在区分情感状态上具有一定的优势。(4)基于非线性属性特征和非线性几何特征在情感空间的特征分布,提出了基于维度空间模型的特征优化方法。首先设计基于非线性全局特征(非线性属性特征和非线性几何特征)的特征优化预实验对该方法的可行性进行了验证,然后对韵律特征、音质特征、MFCC特征、非线性属性特征和非线性几何特征组成的特征全集分别进行基于特征级融合、特征选择和特征优化三组情感语音识别对比实验,验证了特征优化之后的特征参数能够有效地改善网络的识别性能,进而证实了该方法的有效性和适用性。