论文部分内容阅读
本论文的主要研究内容是汉语语音情绪识别,即从语音信号中识别说话人当时所处的情绪状态。虽然许多研究者已经在研究解决这个问题的可能性,并取得了一些成果,但至今仍没有统一的定论,尤其是汉语方面的研究还很少。因此,本文的研究涵盖整个汉语语音情绪识别:从汉语情绪语音的采集,到情绪语音信号特征分析,再到情绪语音信号特征提取和选择,最后到语音情绪识别分类方法。论文中所研究的情绪为四种最基本的情绪状态:愤怒,恐惧,高兴和悲伤;另取中立表征没有情绪时的状态。汉语情绪语音采集方面:在分析当前国际上一些情绪语音库的基础上,独立设计文本,确定录音人数和语音种类(自然、模仿、诱出)。通过对采集的情绪语音数据进行听辨实验,最后建立汉语语音情绪数据库。情绪语音声学特征分析方面:分析了愤怒、恐惧、高兴和悲伤四种情绪相对于中立状态的声学特征(持续时间方面,短时能量方面和基音方面)。同以往的研究不同,本文不仅对语句层面的特征进行分析,而且着重于语句中字层面上的特征分析。在此基础上,特别进行了不同情绪对汉语重音的影响分析。最后给出不同情绪在声学特征上的区分特点。情绪语音特征提取及选择方面:首先提取了208个包括基音、短时能量、短时幅值、信号振幅和持续时间方面的特征。对于这208个数目众多,存在冗余且不便分析的特征,进行两两情绪之间的分析,取代总体分析。根据分析结果,选择出以后研究需要的特征共28个,为以后的研究打下基础。语音情绪识别分类方法方面:传统的语音情绪识别方法是利用统一的分类模型来区分所有的情绪。然而,两两情绪之间的特征分析却表明不同的特征对区分不同的情绪具有特殊的能力。因此,基于决策树理论,本文首次提出了一种有效的语音情绪识别过程——连续两分过程,将统一的分类变成一系列连续二叉分类过程,这样在每一步分类过程中都建立自己的最优分类模型。连续两分过程的建立是根据不同特征的不同区分能力,在识别中能够充分的利用所提取的语音情绪特征,从而得到较好的识别效果,正如实际情绪语音数据实验所表明的一样。为了更好的提高识别效果,需要提取出更多的具有区分性能的特征。因此,考虑到以上分析仅限于时域上的声学特征,此部分着重于临界频带上特征分析。在此基础上,提出了具有区分不同情绪能力的两种特征类型。在充分验证可行性后,将临界频带信息融合到连续两分过程中,通过实际情绪语音数据的实验验证,结果分析显示了融合临界频带信息的连续两分过程的优点。连续两分过程中决策树结构导致累计误差传递,使得最后进行分类的情绪“愤怒”和“高兴”的识别率较差。针对这个缺点,本文首次提出了基于模糊理论的连续两分过程,将模糊理论不仅应用到每一步的分类模型中,而且应用的整个分类过程中。通过实验验证,结果分析显示其优点。针对连续两分过程中建立每一步最优模型的问题,提出了一种基于Boosting算法的连续两分过程。Boosting算法在训练过程中针对困难样本进行了加强训练,能够得到较优的分类模型。通过实验验证显示其优点。