论文部分内容阅读
随着电子技术的广泛发展,用户已经不再满足于只使用键盘、鼠标、开关等机械的冷冰冰的交互方式。虽然说最近触摸屏技术得到快速的发展,使人机交互更便捷,操作形式更多样,但是人们普遍希望人机交互过程更人性化、更智能化,人机交互界面更友好、更生动,这样必然需要计算机具有与人相似的思维感知能力。显然,使计算机能够理解人类的情感是完成上述任务非常重要的一步。语音作为人类交流的重要媒介,是人类传递信息的最基本途径;另外,目前针对语音的传感器已经发展得非常成熟,在获取人类语音信号时,几乎不需要当事人的任何配合。所以语音情感识别就显得尤为重要。语音情感识别的目的是使计算机从人类的语音信号中发现人的当前情感状态,让机器能理解人的感性思维,从而使计算机具有更人性化更复杂的功能。语音情感识别是一种典型的模式识别问题,通常包括三个关键的步骤:语音特征提取,维数约减,分类。本文针对这三个步骤都做了一定研究,主要贡献有:(1)本文提出一种基于Hu矩的加权谱特征(HuWSF)。特征提取算法对语音情感识别算法的影响非常大,其中Mel频率倒谱系数(Mel-frequency Cepstral Coefficients,MFCC)是语音情感识别中最常用的特征。但是MFCC没有考虑同一帧Mel滤波结果相邻系数之间的关系以及同一帧Mel滤波结果同一系数相邻帧之间的关系,这样可能会丢失语谱图中较多有用的信息。Hu WSF能够克服MFCC的上述缺点。动机来源于两方面:首先,在不同的语音情感下,说话强度、说话清晰度、基音频率的变化程度、说话速度等都有着非常明显的变化,这些变化会改变语谱图中能量集中到某些频率的程度。而在语谱图的局部区域计算的Hu矩,能够很好的评价能量如何集中到语谱图中的一些频率的程度。其次,语音情感识别很容易受到说话人、说话风格、说话内容的不同的影响。而Hu矩具有平移、尺度、旋转不变形,使得Hu WSF能够很好的减少这些负面影响。通过在柏林语音数据库(Berlin emotional speech database,Emo DB),Surrey视听表情情感数据库(Surrey Audio-Visual Expressed Emotion Database,SAVEE),中科院自动化所语音情感数据库(CASIA)等三个数据库上的实验证明了Hu WSF的有效性。(2)本文提出了一种基于半监督特征选择和说话人归一化的语音情感识别方法。特征选择算法是语音情感识别中最常用的维数约简算法,但是目前用在语音情感识别中的大部分特征选择算法都是基于贪心算法的有监督的特征选择算法,不能够考虑数据的整体结构、数据的流形结构、以及无标签样本提供的信息。为了克服上述缺点,本文提出一种半监督的特征选择算法,该算法能够同时利用上述所有信息。但是因为语音情感数据的流形结构受到多种因素的影响,如情感、说话人、语句的内容等,导致使用数据流形结构的特征选择算法并不能直接用于语音情感识别。所以在使用半监督特征选择算法之前,应该先减少其它因素对语音特征提取结果的影响。说话人归一化算法是常见的减少说话人对语音情感识别影响的方法,但是传统的说话人归一化算法每个测试说话人都需要较多的无标签样本,这在大部分实际应用环境中难以实现。为了克服这个缺点,本文提出一种两阶段的说话人归一化算法。第一阶段使用所有训练样本的均值和方差对语音数据归一化,第二阶段只使用新的测试说话人的均值对语音数据归一化。因为均值在归一化中只用为偏移量,使得归一化的结果受均值的影响相对不敏感,这样就可以使用少量的样本获得较好的说话人归一化效果。在Emo DB、SAVEE、CASIA等三个数据库上的实验结果,证明了上述算法的有效性。(3)本文提出了一种集成Softmax回归模型的语音情感识别(ESSER)方法。目前已经有较多的集成分类器用于语音情感识别,但是这些集成分类器依然面临着较多的问题,如基分类器的多样性不能保证、基分类器的强度不足、维数灾难等。为了克服上述问题,本文提出ESSER识别语音情感。首先注意到一些特征提取算法的原理相差较大、以及单个特征并不能充分描述语音信号,所以使用不同的特征组合生成子空间,可以确保子空间的多样性;同时因为子空间的维度比所有特征连接成的特征维度要低,这样在一定程度上也克服了维数灾难的问题。然后注意到在子空间的多样性得到保证时,使用强的分类器可以提升集成分类器的效果;并且发现在大部分语音情感数据库上,Softmax都有较强的语音情感识别能力;所以使用Softmax作为集成分类器的基分类器。另外因为Softmax的分类结果是测试样本到各个类的概率,所以使用Softmax作为集成分类器的基分类器还可以为基分类器的集成提供更多的信息。在Emo DB、SAVEE、FAC Aibo等三个数据库上的实验结果,证明了该算法的有效性。(4)本文提出了一种基于流形学习和稀疏表示分类的语音情感识别方法。目前已经有一些基于稀疏表示的分类器用于语音情感识别,但是这些方法要么直接将原始数据用为字典,要么针对每个类单独训练字典,从而不能充分利用训练数据的类别标签。为了克服这个缺点,本文提出一种有监督维数约减算法学习字典,这样可以使字典携带较多的分类信息;同时又减小了字典的基的维度,可以大大加快稀疏表示分类的速度。但是因为语音情感特征受到较多因素的影响,如说话人、说话风格以及说话内容等,导致同一情感的样本之间的距离可能较大,使得在优化这些样本之间的距离时,对传统的有监督的维数约减算法的目标函数影响较大,所以传统算法不能直接用来学习字典。为了克服上述缺点,本文提出一种新的有监督维数约减算法,该算法在计算类内矩阵、类间矩阵、以及样本之间的流形结构时均考虑了数据的局部性,避免了优化同一情感样本之间的距离对目标函数造成的较大影响。另外为了使语音数据的情感流形结构更突出,该算法使用自调整点对点之间的距离描述样本之间的关系。最后,为了充分利用有监督维数约减算法学习到的字典的信息,本文改进现有的加权稀疏表示分类算法,对稀疏表示系数加权时使用自调整点对点之间的距离。在Emo DB、SAVEE、CASIA等三个数据上实验证明了这些算法的有效性。