论文部分内容阅读
为了使人和计算机能够更加人性化和自然化地交流,怎样让计算机具有情感识别的功能逐渐成为各领域研究的热点。其中,语音情感识别在情感识别中扮演着重要的角色,为了提高语音情感识别的准确率和效率,本文一方面进一步完善了表征语音情感的特征,另一方面在识别方法上使用了两种方法进行实验,具体研究过程有:(1)基于语音信号在短时内能保持线性和平稳的特性,对四种基本情感(愤怒、喜悦、平静、悲伤)提取的传统特征有短时能量、短时平均过零率、基音频率、短时平均幅度和前12阶MFCC系数,并对这些特征数据计算各自的统计特征,一共提取了92维传统特征。(2)语音从本质来说是多变的,整体呈现非线性,包含丰富的情感信息。为了更全面地描述情感语音信号,弥补只从短时线性提取特征,本文从语音信号的瞬时性和非线性(混沌机制)出发,首先通过对语音信号进行固有时间尺度分解(Intrinsic Time scale of Decomposition,ITD),获得前8阶合理旋转(PR)分量,再计算前3阶的PR分量的瞬时参数和第一阶PR分量的关联维数,以此作为其在瞬时特性以及混沌特性上新的情感特征。(3)在识别实验中,本文首先采用了传统的支持向量机(Support Vector Machine,SVM)对4组不同特征组合方案进行识别实验。通过比较各组实验的识别率,发现同时补充了PR瞬时特征和关联维数的这一组方案的识别率得到了有效的提高。但不足的是,对于相似情感仍然存在相互误判的情况。由于附加动量的后向传播神经网络(Back Propagation Neural Network,BPNN)在识别上具有计算速度快,可靠性强,稳定性好的特点,在识别实验中添加了用附加动量的BPNN算法对方案四重新进行了实验,实验数据显示,附加动量的BPNN算法相比支持向量机和BPNN,它的分类计算的性能更好,同时,该方法还能有效的减少相似情感相互误判的情况,有利于相似情感的识别。