论文部分内容阅读
噪声环境下的语音识别是一个很重要的课题,在许多场合有广泛的应用。本文主要研究基于特征提取的抗噪声语音识别问题。现有的语音识别系统对于清晰语音有着令人满意的识别结果,但在许多实际环境中,特别是在背景噪声存在的情况下,它们的性能将会大幅度地下降,这也是语音识别系统不能商业化的主要原因之一。解决噪声背景下的语音识别问题有三种方法,即采用抗噪声的语音特征和相似测度、语音增强、语音模板的噪声补偿等。本论文围绕前两种方法进行研究,主要贡献如下: 1.提出了一种改进的基于谱相减的语音特征提取方法。在谱相减法语音增强中,用无音期间的噪声信号作为目前帧的干扰噪声,这会导致清晰语音功率谱或幅度谱的估计值存在误差。本文提出的改进方法能够减小这种误差对提取的语音特征的影响。实验结果表明,和语音信号先谱相减增强再提取特征的方法相比,用这种方法从带噪语音中提取的MFCC特征矢量更接近于纯净语音的特征矢量,并且极大地提高了识别系统对带噪语音的识别率。 2.提出了功率谱差分的概念,并在此基础上,提出了一种抗噪声的语音特征。计算功率谱的差分相当于在功率谱域滤除带噪语音中的加性噪声。首先让语音信号的功率谱通过一组带通滤波器,再计算各滤波器输出的差分值。理论分析和实验一致证明,以此作为语音信号的特征,可以大幅度提高语音识别系统在噪声环境中的性能。 3.提出了基于单边自相关序列的语音特征OSA-MFCC。虽然Hernando等人提出的语音特征OSALPC也是基于单边自相关序列的抗噪声语音特征,但在提取OSA-MFCC特征和OSALPC特征时,单边自相关序列的计算方法不同,并且在提取特征时用到的单边自相关序列长度不同。带噪语音的识别实验表明,OSA-MFCC的抗噪声能力远远强于OSALPC。 4.提出了基于奇异值分解滤波的多模板语音识别的方法,推导了语音模板的参数重估公式。奇异值分解滤波虽然可以提高带噪语音信号的信噪比和对带噪语音的识别率,但不同的滤波参数只能保证识别系统在某一较小的信噪比范围内