论文部分内容阅读
随着语音识别技术的不断发展,当前的语音识别系统在纯净环境下对朗读语音的识别可以达到非常高的识别精度。但是无处不在的噪声带来了训练和测试环境之间的不匹配,语音识别系统的性能在噪声环境中急剧下降。噪声鲁棒性问题成为了语音识别达到真正实用所必须解决的关键问题。本文在总结和分析现有噪声鲁棒语音识别技术的基础上,对信号空间和特征空间的语音增强、特征补偿、特征规整、语音激活检测等问题进行了研究,具体的工作及创新包括以下几个方面:1.对现有的噪声鲁棒语音识别技术进行讨论,并根据语音识别系统的构成将噪声鲁棒语音识别技术按照信号空间、特征空间和模型空间的鲁棒语音识别技术进行分类总结。在详细介绍各种噪声鲁棒性方法的基础上,阐述了噪声鲁棒语音识别研究的主要问题。2.基于高斯混合模型的两级Mel弯曲维纳滤波。为了解决基于短时谱估计的语音增强算法中先验信噪比估计误差较大的问题,提出了一种基于高斯混合模型的先验信噪比估计方法。在语音增强过程中,语音谱和先验信噪比利用训练好的高斯混合模型计算得到,然后将得到的先验信噪比应用到传统的语音增强系统中。语音增强实验表明,该算法避免了传统语音增强系统中由于先验信噪比通过回归平均获得所导致的先验信噪比估计粗糙的弊端,提高了语音增强系统的性能。在得到基于高斯混合模型的先验信噪比估计方法的基础上,将这种先验信噪比估计方法用于ETSI分布式语音识别标准中的两级Mel弯曲维纳滤波算法,得到基于高斯混合模型的两级Mel弯曲维纳滤波算法,显著提高了语音识别系统的噪声鲁棒性。3.改进的基于MVA特征规整的鲁棒语音识别算法。在研究基于MVA(Mean-Variance Normalization,ARMA filter)的特征规整算法基础上,提出结合语音增强与特征规整的鲁棒语音识别算法。前端采用最小均方误差对数谱幅度估计语音增强算法对含噪语音进行处理,由于增强后的语音仍然含有残余噪声,会影响语音识别系统的性能。因此,在后端采用MVA特征规整进一步降低增强语音和纯净语音之间的不匹配。实验表明,我们提出的算法提高了语音识别系统的噪声鲁棒性。同时,提出了将特征补偿与MVA特征规整相结合的算法,并研究了不同的结合形式,得到了最佳的结合方案,提高了语音识别系统的性能。4.改进的基于似然比测试的语音激活检测。深入研究了基于似然比测试的语音激活检测算法,并对基于直接决策似然比测试的语音激活检测算法和基于平滑似然比测试的语音激活检测算法进行了讨论。提出将高斯混合模型引入基于似然比测试的语音激活检测算法中,利用高斯混合模型对纯净语音谱进行建模,得到改进的基于高斯混合模型的似然比测试算法,提高了语音激活检测算法的噪声鲁棒性。