论文部分内容阅读
作为情感计算的一个重要分支,情感识别在近年来引起了国内外研究者的广泛关注。语音作为人类交流的重要方式之一,承载着说话人大量的情感信息。语音情感识别技术能够使计算机通过语音信号识别说话人的情感状态,实现更和谐的人机交互,在实际生活中具有非常广阔的应用前景。本文主要研究了基于核函数的语音情感识别,将核方法引入传统的模式识别算法中,进一步提高算法的非线性处理能力,并针对相应的算法提出若干改进应用于语音情感识别中。本论文的主要研究内容和创新点如下:(1)阐述了语音情感识别的研究背景和意义,并总结了情感描述模型、情感数据库、情感特征参数、特征降维及情感分类算法等方面的国内外研究现状。(2)设计并录制汉语语音情感数据库,该库包含高兴、愤怒、悲伤、害怕、平静等五种基本情感下的语音,且全部语音样本都经过有效性检验以确保数据符合规范。对数据库中的语音信号进行预处理工作,并提取出语速、能量和幅度、基频、共振峰、MFCC等参数组成情感特征矢量并分析不同情感状态下参数的变化规律,为后续语音情感实验做好基础工作。(3)提出一种核C均值聚类与核K近邻分类相结合的算法用于语音情感识别中,该算法利用核映射将原输入空间映射到高维特征空问,在特征空间内进行C均值聚类构造代表性的情感模板,再利用K近邻算法对测试样本分类。该算法不仅利用了核方法提高分类器的非线性处理能力,还克服了传统核K近邻分类时需要计算测试样本与所有训练样本间距离的缺点,提高了分类速度。为了进一步提高该算的识别正确率,本文还将模糊集的理论引入该算法中,通过构造模糊聚类得到更优的情感聚类集合并在近邻分类时通过构造隶属度函数使测试样本以不同程度隶属于各个情感类别,得到更加符合实际情况的分类结果。最终实验表明,该算法具有更有效的识别效率。(4)提出将核稀疏表示分类算法应用在语音情感识别中,该算法利用核映射机制将传统稀疏表示分类器推广到核稀疏表示分类器,克服了稀疏表示分类器不能有效解决非线性问题的缺点,使测试样本更准确地表示为训练样本的一个稀疏线性组合。最后利用局部编码的思想对该算法进行改进,提出一种基于局部约束的加权核稀疏表示分类算法,与核稀疏表示分类算法相比,该算法能够使测试样本用更多近邻的训练样本进行稀疏表示,在一定程度上能够提高分类的准确度。(5)对支持向量机中的核函数进行了深入研究并提出改进,为了突出了不同特征对分类作用的差异性,本文将特征重要程度的信息融入多项式核函数和高斯核函数中,然后利用改进后的多项式核函数和高斯核函数组成组合核函数,最后再通过优化算法寻找最优核参数以获得性能最优的组合核函数。该算法不仅对基核函数进行了改进,还利用组合核函数代替单一核函数,并通过优化算法寻找最优核参数及组合参数,可以说对传统支持向量机做了多重改进以提升算法性能。