论文部分内容阅读
随着智能人机交互需求的增长,语音情感识别技术吸引了众多学者进行研究。目前的研究方向主要包含语音信号处理、情感特征集提取、情感特征的选择和融合、分类器构建等。考虑到情感特征集和分类器对语音情感识别的最终效果起关键性作用,本文针对这两点进行重点研究,研究内容包括:如何融合不同特征以实现高质量情感识别以及如何构建有效的分类结构获取适应当前情感类别的特征集。本文开展的研究工作如下:(1)针对语音情感识别技术的现状和未来发展进行调研,完成了当前主流语音情感识别技术各个模块的原理分析,主要包括语音情感识别中所需的数据库、情感特征、特征选择和特征融合方法、分类器等模块,并通过实验仿真完成各模块的性能评估。在上述基础上,对语音情感识别技术中存在的问题进行探讨,找出潜在解决方法,为后续研究工作提供理论基础。(2)针对语音情感识别中单一特征不能全面表征情感信息的问题,本文提出一种基于遗传算法融合深度瓶颈特征和声学情感特征的语音情感识别方法。该方法一方面通过提取语音的梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)、基音频率、能量、过零率等声学特征,用于表征语音中不同情感的声学变化信息,另一方面利用深度神经网络(Deep Neural Network,DNN)提取语音的深度瓶颈特征,用于弥补声学情感特征中缺乏的与分类标签相关联的信息。最后引入GA(Genetic Algorithm,GA)用于搜索融合两类特征的贡献度权值,将搜索得到的结果用于实现两类特征的融合,并使用支持向量机(Support Vector Machines,SVM)实现训练和分类。实验结果表明,基于遗传算法融合能得到更具有情感区分性的特征集,该特征集比单一特征集具备更高的识别性能。(3)由于不同情感对应的最佳特征集有所不同,因此针对当前情感使用适应度更高的特征集可以进一步提升识别效果。在上述情感识别方法的基础上,本文提出树型结构和直分型结构的语音情感识别方法。基于树型结构的语音情感识别对具有相似情感特性的情感使用相同的寻优目标,得到更适应这些情感类别的特征集,并用于情感识别。基于直分型结构的语音情感识别对每一类情感使用不同的特征集,最后实现对每类情感的高质量分类。实验结果表明,两种结构的语音情感识别系统都可以提升语音情感识别效果。树型结构在时间复杂度上优于直分型结构,而直分型结构则可以达到更佳的识别效果。