论文部分内容阅读
声学特征在自动语音识别技术中扮演着重要的角色,它的可辨识性和可区分性直接影响着最终的识别性能。经过研究者的不懈努力,声学特征的研究工作已经取得了重大进步,涌现了一些具有代表性的声学特征,大大促进了自动语音识别技术性能的提升。然而大量研究表明,在低信噪比的噪音环境下,特别是在非平稳噪音环境下,自动语音识别技术的性能与人类的听觉能力相比,尚有相当大的差距。究其原因,声学特征的鲁棒性较差的问题是导致这种情况的关键因素之一。研究还表明,仿真人耳的听觉机理有助于提升特征的鲁棒性,然而这方面的研究工作尚不完善,听觉系统在鲁棒性方面的相关机理还未能得到充分地挖掘。为了进一步提升自动语音识别技术的性能,仍需在仿真人耳的听觉机理方面投入大量的研究工作。针对声学特征在噪音环境下的鲁棒性问题,鉴于人类听觉系统的强鲁棒性,本文对基于听觉机理的鲁棒特征提取技术进行了研究,提出了几种鲁棒特征提取方法,并在说话人识别系统中对所提出特征的鲁棒性进行了评估和验证。本文的主要研究工作如下:(1)借鉴耳蜗在信号处理方面的非线性工作机制,提出了一种仿真耳蜗机理的鲁棒特征提取方法。首先,对常用的耳蜗滤波器组Gammatone进行了分析,指出了其在语音信号分解方面的不足,并在此基础上从语音信号处理的角度,给出了一个能有效体现基底膜滤波能力的滤波器组。接着,鉴于覆膜和基底膜间的耦合机制在听觉产生过程中所起的重要作用,模拟该耦合机制设计了一个频率选择性增益函数。然后,在上述研究工作基础上设计了一种基于耳蜗非线性处理机制的鲁棒特征提取方法。在说话人识别系统上的验证结果表明,由该方法生成的特征在鲁棒性方面优于梅尔频率倒谱系数(Mel Frequency Cepstral Coefcients, MFCC)和感知线性预测系数(PerceptualLinear Predictive, PLP)特征。(2)借鉴听觉中枢对声音信号的神经表示机制,提出了一种仿真听觉中枢编码方式的鲁棒特征提取方法。首先,明确了声音信号的内蕴时频结构(underlying structure)与听觉中枢神经表示之间的对应关系,并给出了内蕴时频结构的获取方法。接着,为了对获取的内蕴时频结构的有效性进行分析,给出了关于内蕴时频结构有效性的判断准则和度量方法,并提出了相应的优化方法。最后,在上述基础上提出了一种仿真听觉中枢编码方式的鲁棒特征提取方法。实验结果表明,与MFCC和PLP特征相比,由该方法生成的特征表现出较好的鲁棒性。(3)借鉴人类听觉在混合音分离方面的工作机制和超强能力,提出了一种基于听觉声源分离功能的鲁棒特征提取方法,并对仿真听觉中枢编码方式的声学特征提取方法进行了改进。首先,借鉴听觉的声源分离机制,以语音内蕴时频结构和噪音内蕴时频结构近似听觉中枢中语音和噪音的先验知识,并以语音和噪音的内蕴时频结构组成的联合基作为处理带噪语音时的分解字典。然后,针对联合基间较高的互相干性会导致声源分离失真的问题,提出了一个关于联合基间互相干性的优化算法,并从理论上证明了该算法的收敛性,且实验结果也表明该优化算法有助于提升基于联合基的稀疏表示在噪音和语音分离方面的性能。最后,在上述工作基础上,提出了一种基于听觉声源分离机制的声学特征提取方法。实验结果表明,由该方法生成的特征在鲁棒性方面不仅优于MFCC和PLP特征,而且还优于改进前的声学特征。(4)结合上述三方面的研究工作,给出了一个基于听觉机理的鲁棒特征提取框架。该框架由两层具有不同信号处理功能的模块串联而成,它们分别是基于听觉系统关注功能的目标音剥离层和基于听觉机理的特征表示层。其中,根据自动语音识别技术的需求,目标音剥离层还可以进一步细分为混合音分离和语音活动检测(Voice Activity Dectection,VAD)两层。前者主要将目标语音信号从噪音中提取出来,后者则在此基础上从语音信号中提取语音片段并剥离静音片段。之后,在该特征框架指导下,结合听觉声源分离功能和耳蜗非线性处理机制提出了一种鲁棒的声学特征。此外,为了向前兼容并为后一层提供有效的语音片段,本文还提出了一个基于声源分离机制的语音活动检测方法。实验结果表明,该特征在鲁棒性方面不但优于MFCC和PLP特征,而且还优于本文提出的前三种声学特征。另外,语音活动检测方面的实验结果表明,本文提出的语音活动检测方法优于经典的基线方法。