论文部分内容阅读
语音情感识别的研究是“情感计算”研究领域的一个重要分支。语音情感识别的研究对于提高计算机智能化、人性化、开发新型人机交互环境,以及推动语音信号处理和多媒体人机交互技术等相关领域的发展有重要的意义。目前,语音情感特征提取、语音特征选择以及语音情感识别已经成为当前研究领域内十分重要的研究课题。针对目前研究状况,本文从语音情感库的建立、语音特征提取方法、语音特征选择方法以及说话人无关和说话人相关语音情感识别方法等方面展开研究。完成的主要工作和研究成果总结如下:1)提出老人语音情感库的构建。针对目前语音情感库,尤其是关于老年人的面向中文语音情感库的缺乏的现状,本文构建了老人语音情感库,具体阐述了老人情感库的构建方法和过程,并将该老人语音情感库应用于情感识别。2)提出基于傅里叶参数(Fourier Parameter, FP)的语音特征提取方法,并用于说话人相关和说话人无关的语音情感识别中。本文基于傅里叶参数模型分别在德国语音库EMODB、中科院语音库CASIA以及老人语音库EESDB上提取傅里叶参数特征,包括傅里叶参数特征FP、动态特征deltaFP、deltadeltaFP以及他们的全局特征,然后研究FP特征及其动态特征对语音情感识别的效果,实验验证了FP特征参数及其动态特征参数可以有效地用于语音情感识别,通过与传统特征MFCC和FEZ比较,实验验证了FP特征模型对于语音情感识别是有效的,FP特征尤其是F P+MFCC特征集可以提高语音情感识别效率。3)提出小波包系数语音特征提取方法,并用于说话人无关的语音情感识别。首先基于小波包分析方法,在德国语音库EMODB和老人语音库EESDB上提取小波包系数特征,并将小波包系数的全局特征(最大值、最小值、平均值、方差和中位数)、及其一阶差分和二阶差分特征应用于语音情感识别中,实验验证了单个小波包系数特征与多个小波包系数特征对语音情感识别的性能,而且多个小波包系数特征较单个小波包系数特征对语音情感识别的效果更好。鉴于小波包系数特征维数较大,实验进一步研究了正交实验和前向序列选择的特征选择方法,选择最优小波包系数用于语音情感识别,实验表明,经过特征选择的小波包系数特征集可以提高语音情感识别率,而且,语音情感识别率高于传统MFCC特征。因此小波包系数特征对语音情感识别是有效性的。4)研究正交试验设计(Orthogonal experimental design)、顺序前进浮动选择法(SequentialFloating Forward Selection, SFFS)以及和声搜索(HarmonySearch,HS)等特征选择方法。针对语音数据维数过大的特点,通过特征选择可以去除冗余特征、去除不相关特征信息干扰,有效地降低特征空间的维数,进而提高目标函数的预测性能。本文将三种特征选择方法应用于语音情感识别,并进行了说话人相关和说话人无关的实验,实验结果表明,上述特征选择方法可以有效降低特征空间维数,保证语音情感识别效率,其中顺序前进浮动选择法对特征维数缩减较高,而且能提高语音情感识别率。5)研究基于神经网络(Artificial Neural Network, ANN)、高斯混合模型(Gaussian Mixture Model, GMM)和支持向量机(Support Vector Machine, SVM)的情感识别模型。首先本文提取传统语音特征,然后基于上述三种分类模型对语音情感进行识别,实验验证了三种模型对语音情感识别的效果,其中基于支持向量机的语音情感识别模型性能较好。