论文部分内容阅读
语言交流是日常生活中最常用的交流方式,而语言通常以语音的形式被表达出来。人们所说的每一句话,不仅包含着说话人所表达的语义信息,还蕴含着说话人丰富的情感信息。语音情感识别就是让计算机通过人类的语音,获得说话人的情感状态,具体过程为:从语音的各种形式中提取特征,选择与情感相关度较高的特征进行训练模型,使其具有辨别不同情感的能力,最后使用测试集验证模型性能。
本文采用语谱图和HSF(High-level StatisticalFunction)特征两种方法来研究语音情感识别,并以CASIA汉语情感数据库、SAVEE英语情感数据库和Berlin德语情感数据库三个不同语言数据库作为实验数据,实现了机器学习和深度学习两类不同模型上的情感分类。(1)基于语谱图的语音情感识别:语谱图被处理后,导入AlexNet和基于AlexNet的改进模型进行训练和识别,实验结果表明:相比于AlexNet,改进模型在三个数据库的情感识别准确率有大幅度地提高,平均提高了6%左右。(2)基于HSF特征的语音情感识别:将MARSYAS(Music Analysis,Retrieval and Synthesis for Audio Signals)提取的LLD(Low-Level Descriptor)特征统计得到HSF特征,使用经过特征选择后得到最佳HSF特征集,以支持向量机(Support Vector Machine,SVM)、反向传播神经网络(Back Propagation Neural Network,BPNN)和深度置信网络(Deep Belief Network,DBN)作为分类模型,得到了三个数据库的情感识别结果,BPNN在三个数据库上的情感识别结果均比SVM和DBN要好,尤其是在Berlin德语情感数据库上实现了84.11%的识别准确率。最后,通过比较不同模型在三个数据库上的情感识别结果,总结了两种语音情感识别方法的实施技巧,并从多方面分析了情感分类准确率低的原因,证明了改进模型的有效性和HSF特征的优越性。
本文采用语谱图和HSF(High-level StatisticalFunction)特征两种方法来研究语音情感识别,并以CASIA汉语情感数据库、SAVEE英语情感数据库和Berlin德语情感数据库三个不同语言数据库作为实验数据,实现了机器学习和深度学习两类不同模型上的情感分类。(1)基于语谱图的语音情感识别:语谱图被处理后,导入AlexNet和基于AlexNet的改进模型进行训练和识别,实验结果表明:相比于AlexNet,改进模型在三个数据库的情感识别准确率有大幅度地提高,平均提高了6%左右。(2)基于HSF特征的语音情感识别:将MARSYAS(Music Analysis,Retrieval and Synthesis for Audio Signals)提取的LLD(Low-Level Descriptor)特征统计得到HSF特征,使用经过特征选择后得到最佳HSF特征集,以支持向量机(Support Vector Machine,SVM)、反向传播神经网络(Back Propagation Neural Network,BPNN)和深度置信网络(Deep Belief Network,DBN)作为分类模型,得到了三个数据库的情感识别结果,BPNN在三个数据库上的情感识别结果均比SVM和DBN要好,尤其是在Berlin德语情感数据库上实现了84.11%的识别准确率。最后,通过比较不同模型在三个数据库上的情感识别结果,总结了两种语音情感识别方法的实施技巧,并从多方面分析了情感分类准确率低的原因,证明了改进模型的有效性和HSF特征的优越性。