论文部分内容阅读
情感识别是情感计算的重要组成部分,近年来关于情感识别的研究越来越受到重视,而语音作为人类日常生活中最重要的交流方式之一,其中蕴含着丰富的情感信息,因此有关语音情感识别的研究意义重大。语音情感识别技术有助于改善计算机的人机交互能力,具有极为广阔的应用前景。本文主要研究了基于特征融合的语音情感识别方法,提取了谱特征、韵律特征、音质特征等,对其情感识别能力进行了分析,并提取了近似最优特征子集用于后续研究。特征融合指的是将谱特征、韵律特征、音质特征等不同特征类型进行结合。传统特征融合方式只是特征降维后的简单组合,未能对各特征类型在分类能力上的差异进行深入探索与利用,本文借鉴数据融合的相关概念,分别从判决层融合与特征层融合两个角度出发提升了特征融合系统的识别效率。其中判决层融合使用了改进核函数的SVM-KNN模型与自适应权值算法,特征层融合使用了深信度网络(DBN),这些方法的应用成功提高了语音情感识别系统的识别率。本论文的主要研究内容和创新点如下:(1)阐述了语音情感识别的研究背景和意义,并总结了情感描述模型、情感数据库、情感特征参数、特征降维及情感分类算法等方面的国内外研究现状。(2)设计并录制了包含高兴、愤怒、悲伤、害怕、平静五种情感语音的语音数据库,并对其中数据进行了检验与听辨测试,保证数据的有效性。对语音信号进行了预处理,从中提取了261维特征用于实验研究。(3)基于Fisher相关算法、最大相关最小冗余算法进行了特征比较与传统特征融合。本文利用Fisher相关准则J1对所提取的谱特征、韵律特征、音质特征的情感识别能力进行了分析比较,并采用LDA变换后的散点图与KNN两种方法对其进行了进一步分析;利用最大相关最小冗余(MRMR)算法获得了特征降维后的融合特征集,实现了传统特征融合。(4)研究了基于核函数改进的SVM-KNN自适应权值判决层融合方法。本文首先构建了SVM-KNN分类器,然后基于组合核函数与量子群寻优算法改进了SVM的核函数,提升了SVM-KNN的判决性能,最后使用自适应权值算法对分类器结果进行融合即判决层融合,提高了系统的语音情感识别率。(5)研究了一种基于深信度网络(DBN)的特征层融合方法,设计了DBN21与DBN22两种特征层融合模型。本章中使用设计的DBN21对传统特征进行特征层融合,并与未使用特征层融合的基准模型进行比较,证明了特征层融合对提高系统识别率的作用;此外,本文还基于视觉注意机制提取了新的语谱图特征,并基于深信度网络对其进行了深入研究。本文首先利用STB/Itti模型对语谱图进行分析,从颜色、亮度、方向三个角度出发,提取了新的语谱图特征,然后利用DBN21对其进行特征层融合,验证了所提取特征的语音情感识别能力,最后利用DBN22对传统特征与新提取的语谱图特征进行了特征层融合,进一步提高了识别率。