论文部分内容阅读
伴随着信息通讯技术、移动互联网技术的高速发展,人们越来越希望能够以一种智能化、情感化、人性化的方式与计算机进行交流。语音是人类最直接的交流方式,同时也是人类情感的主要载体。语音情感识别技术研究作为现如今一个新兴的研究方向,不仅对人机交互有着至关重要的意义,更对人工智能有着重要的影响。本文在研究和分析现有的一些语音情感识别技术的基础上,首先从超音段特征、谱特征以及一种基于临界带的多分辨率分析的特征入手,对本文所采用的情感特征进行分析;最后首次尝试采用投影字典对学习(DPL)算法来解决语音情感识别问题。本文的主要研究工作如下:1.本文对情感特征的研究,包括以下两点:1)提取了超音段特征中的响度特征和基音频率特征、谱特征中的MEL频率子带能量系数(MFBECS)特征和线性谱频率(LSF)特征。主要对基音频率F0特征的提取方法进行了研究,针对SHS算法存在倍频错误的问题,对SHS算法进行改进。2)因为并不是所有的频谱部分都对人类的感知系统有影响,所以引入了一种基于临界带的多分辨率分析的GPWP特征来对语音情感进行识别,并对该特征中所采用的小波包基函数进行了研究,结果表明coif2基函数的识别性能最好。2.本文研究了基于稀疏表示分类(SRC)的语音情感识别,针对SRC在解决语音情感识别时存在的速度慢且识别效果不理想的问题,首次尝试采用DPL的方法来解决语音情感识别问题。3.本文使用Emodb、Polish、eNTERFACE’05三个语音情感数据库来进行实验。首先对GPWP特征的识别性能进行研究,结果表明该特征的识别效果优于其他四种特征;其次,将本文提取的情感特征组合与相关文献进行对比,结果表明本文的特征组合性能较好;最后,对DPL所采用的原子个数进行了研究,并从时间性能和识别性能两个角度出发,将DPL方法与SRC、SVM、JSLRR和CRC四种识别方法进行了比较,结果表明该方法不仅具有较好的识别性能,同时还具有良好的时间性能。