论文部分内容阅读
语音情感识别技术是人工智能领域的一个新兴分支,在建立和谐人机交互环境和安全系统自动监督方面有着广泛的应用前景,对人类的进步意义是重大的。语音情感的识别过程主要包括语音信号预处理、语音情感特征参数提取分析、语音情感类别分类识别。由于情感信息这一语义变量本身的模糊、不可确定性,所以对情感状态进行精准识别是很有难度的。而在识别过程中所用到的情感特征参数的维数又高,增加了识别的难度,降低了识别率。为此,本文针对基于模糊理论的语音情感识别方法进行了研究,主要研究内容如下:1、研究了语音信号的端点检测、预加重、分帧和加窗等预处理步骤,以及提取详细的语音情感特征参数和用KPCA方法对语音情感特征降维分析。KPCA能够降低特征的冗余度,有效减少学习算法的运算量,改善识别性能。实验结果表明基于核主成分分析方法的特征选择使识别结果得到提高。2、研究了基于模糊支持向量机算法(FSVM)的语音情感识别方法,通过将模糊理论与支持向量相结合,提高支持向量机方法的学习性能和泛化能力,解决小样本、非线性、高维数以及局部极小点等问题,并消弱噪声和孤立点对模糊分类的影响,改善了对语音情感状态的识别率。3、研究了基于自适应模糊C均值算法(AFCM)的语音情感识别方法,该方法对不同的数据使用不同的聚类半径,弥补了FCM方法使用同一个聚类半径的不足,改善了语音情感状态的识别率。在AFCM算法中,实验发现用Mahalanobis距离函数和模糊加权指数m=2时对四类的情感识别率都最高。而在FCM算法和AFCM算法对比实验中发现,AFCM比FCM有更好的识别效果。4、研究了模糊矢量量化相关理论,接着研究模糊核矢量量化算法(FKVQ)和模糊核熵矢量量化(FKEVQ)。在FKEVQ算法中引入了码字矢量量化,把相似的数据量化成码书,还用核映射将输入空间映射到高维特征空间,使数据有更好的区分性,同时为了平衡隶属度函数,使用模糊熵度增加不同数据的可区分性。实验发现码书中的码字数目C为22和模糊加权指数m为1.1以及高斯核宽度δ为5时,FKVQ算法性能是最优的。而在研究FKEVQ算法发现,FKEVQ系统的误识率随着模糊熵度初值增大有一定的上升趋势,当λ为0.06时,FKEVQ的识别率最佳。