论文部分内容阅读
语音情感识别是人工智能领域的一个新兴分支,在自然人机交互、多媒体分段与检索、安全系统自动监管等方面有着广泛的应用前景。语音情感识别过程包括语音信号预处理、声学特征提取、特征向量降维处理和基于统计模型的情感识别。本文的工作主要集中于语音情感识别过程中的若干关键问题。提出情感语料库的可视化方法、半监督机制的语音情感识别、非线性特征降维算法ELE以及基于对话关联矩阵的情感识别技术。探讨情感语料库的采集、标注和可视化技术。构建包括表演语料、引导语料和自然语料的中文情感语料库CHAD。通过听辨实验,分析和比较不同来源的语料。将情感语料的高维声学特征通过Sammon’s算法映射,得到二维可视化空间图MASEMAP。基于图中的位置分布分析语料的情感表达以及各情感间的独立与依赖关系。在分析各声学特征及其提取算法的基础上,改进co-training算法,提出半监督机制的语音情感识别。该算法结合时域特征和倒谱特征,以未标注语料扩充训练语料集,提高情感识别率7.4%-9.0%。通过改变未标注语料的加入规则,减小由于错误接纳未标注语料造成的分类噪声。探究各种特征降维算法。在分析线性特征抽取算法的基础上,提出一个分层次的语音情感识别系统。不同特性的语料采用不同的降维算法,提高系统的整体性能。在非特定人情感识别中取得78.7%-83.4%的识别率。提出ELE非线性流形学习算法。基于测地距离估算法,高维特征点被投影到六维子空间中。同一情感状态的特征点聚集在子空间的一个平面附近。该分布规律有利于情感语料的分离。基于ELE的非特定人情感识别取得9%-26%的识别率提高,特定人的结果提高5%-20%。提出LDA-L1-Rank特征选择算法,并与PCA-L1-Rank进行对比实验。在语音情感识别中,引入结合类集和类对的特征选择算法。综合考虑优于分离所有类别和某两个类别的特征,兼顾全局和局部的特征分布特性。基于该算法的非特定人情感识别的平均F1衡量提高3.2%-8.4%。在纯语音情感识别的基础上,进一步研究结合其他信息的情感识别。采集和分析对话情感语料后,提出对话情感关联矩阵。对话双方的情感约束提高了情感识别的正确率和鲁棒性。结合人脸表情,实现双模态情感识别。提出THMM模型及相关的Viterbi最优路径搜索算法和分段式K-means模型训练算法。通过设置通道权重最大化融合视觉和语音信息,取得91.9%的平均识别率,识别结果也更为鲁棒。根据实用化的要求,调查噪声环境下的情感识别。叠加受控噪声的情感语料在提取声学特征后,采用本文提出的ELE算法进行特征降维。优于其他算法10%的识别率表明,ELE算法能较好地发掘情感语音特征的内在分布规律,且性能不被噪声等干扰。