论文部分内容阅读
情感在人类的感知、决策等过程扮演着重要角色。长期以来情感智能研究只存在于心理学和认知科学领域,近年来随着人工智能的发展,情感智能跟计算机技术结合产生了情感计算这一崭新的研究课题,这将大大的促进计算机技术的发展。情感的计算机自动识别是通向情感计算的第一步。语音作为人类最重要的交流媒介,携带着丰富的情感信息。如何使用计算机技术从语音中自动识别说话者的情感状态近年来受到各领域研究者的广泛关注。现有的基于语音声学特征的情感识别研究,尤其是针对普通话语音的研究,还存在较多局限性,如不能像语音识别一样找到一种可以广泛使用的特征,且识别效果不佳,鲁棒性较差等。本文针对日常生活中最常见的四种情感状态:生气、高兴、伤心、惊奇和一种无情感状态为例,对基于语音信号的情感识别进行了研究,主要内容和成果如下: 1.研究了基于基音频率、短时能量、共振峰频率、Mel频率倒谱系数(Mel-Frequency Cepstral Coefficient,MFCC)和Mel频率子带能量等共201个衍生特征的情感区分能力。提出了一种基于特征选择(Feature Selection,FS)和支持向量机(Support Vector Machine,SVM)的语音情感识别方法。试验结果表明,通过引入除常用的基频、短时能量和共振峰频率之外的其他特征,识别效果得到明显的提高。此外,由于待选特征较多,难免存在无关特征或冗余特征,因此特征选择的使用在降低复杂度之外也大大的提高了情感识别率。 2.鉴于语音的基频等特征的准确提取比较困难且计算复杂,本文提出了一种称为Mel频率能量动态系数(Mel frequency energy dynamics coefficients,MFEDC)的特征参数。该特征的重要特点是计算原理简单。试验结果表明,该特征参数结合支持向量机方法对五种情感状态的识别可以得到较好的效果。 3.提出了一种基于一组时序特征和(hidden Markov model,HMM)的语音情感识别技术。从基于基音频率、短时能量、共振峰频率、MFCC和Mel频率子带能量的短时特征序列及其高阶特征中,通过一定的特征序列选择方法,得到一组相对较优的特征序列子集,并利用HMM模型进行五种情感状态的识别。试验结果表明,该方法不但可以获得较高的识别率,且优于只用基频和能量两类特征或只用等维MFCC的识别方法。 4.初步研究了语音情感识别的鲁棒性,对对数频率功率系数(Log Frequency Power Coefficients,LFPC)进行了改进,提出了一种称为MS-LFPC的特征矢量,理论分析和试验结果都证明,相对于LFPC,MS-LFPC不但能够提高