论文部分内容阅读
自动语音识别属于多维模式识别和智能计算机接口的范畴,其研究的根本目的是使机器能够听懂人类的语言。当前在实验室环境下很多系统取得了很大的进步,有着不错的性能。但是在实际环境中,由于存在复杂多变的噪声和未知因素干扰,系统性能会急剧下降以致于不可用。因此如何有效地消除或抑制噪声,提升语音识别系统的鲁棒性成为语音识别的一个重要课题。
噪声鲁棒性问题的根源可以归结为语音识别训练环境和测试环境之间的不匹配。一般来说,噪声鲁棒性方法可以粗略分为两大类:前端方法和后端方法。前端方法主要着眼于对特征参数本身的处理和特征参数提取过程中的方法的改进,使得随着环境的变化,特征参数自身变化尽可能的小,达到鲁棒性要求。而后端方法则是根据噪声环境来相应地调整模型,使得模型和实际环境相匹配。本文对前端噪声鲁棒性方法进行了简要的介绍,实现了一些既有的方法,同时也提出了一些新的方法。
基于参数域规整的方法是常用的鲁棒性前端方法之一。它通过使得训练和测试环境的特征参数在分布上保持一致,减小了不匹配度,从而提高了参数的鲁棒性;但是由于其对参数线性或非线性变换,使得其同时带来了失真。本文在第三章介绍了一种基于权重的CDF-matching方法,通过权重对规整幅度加以限制,从而达到了鲁棒性提升和参数失真的下降一个平衡。我们利用最大分布相似准则去寻求最优的权重,在实现中,我们分别把这种思想运用到CMVN和双高斯映射算法上。Aurora2.0上的试验表明,在CMVN上,该方法有9%的性能提升,而在其DG上,该方法有4.1%的性能提升。我们利用DFE思想对权重进行进一步优化,通过对权重和模型同时的调整,我们在WMSVN上相对baseline有6%的提升。
在第四章作者介绍了线性区分性分析(LDA)和异方差线性区分性分析(HLDA)方法以及它们在语音识别的应用。通过LDA和HLDA的线性变换将原始特征变换到降维的空间,使得变换后的特征在最大似然准则下具有最大的区分性。作者在863电话信道语音数据库上进行了相关的实验。实验结果表明,对于HLDA,变换后维数取39维性能是最好的。变换为39维特征后,LDA变换使得识别错误率相对于baseline下降了2.6%,而利用HLDA变换识别错误率则下降了6.9%。