论文部分内容阅读
语音交流是人类最方便的交流方式。随着科技的发展,以语音识别技术为核心的人机交互方式日益流行起来。经过六十多年的发展,语音识别技术已经有了极大的提升,在安静环境下,语音识别系统的性能接近人类水平,而在有噪声干扰的情况下,语音识别系统的识别准确率大打折扣。在噪声环境下提高语音识别系统的鲁棒性已经成为语音识别技术投入大规模使用的关键之一。本文主要针对噪声环境下语音识别系统性能下降的情况,使用语音增强算法对输入语音进行降噪处理,提升输入语音的质量以提高语音识别系统的鲁棒性。而传统意义上的语音增强算法会使语音产生畸变和失真,因此需要针对自动语音识别系统的特性对语音增强算法进行改进。本文主要的工作有:(1)研究了基于人耳听觉掩蔽效应和谐波恢复原理的改进维纳滤波算法。首先研究了人耳的听觉掩蔽效应,并对掩蔽阈值的求解方法进行了介绍,其次对最小值统计噪声估计(Minimum Stasistics,MS)算法和基于最小值约束的递归平均噪声估计方法(Minima-Controlled Recrsive Average,MCRA)进行了研究,然后提出改进方案,第一步,结合掩蔽阈值调整噪声能量谱的估计;第二步,使用谐波恢复原理,恢复丢失的语音成分;第三步,为了减少失真对输出语音以先验信噪比为准则进行后处理。最后,经过实验仿真验证,本改进确能提高语音质量。(2)研究了一种对数域MMSE幅度谱估计器的改进算法。首先研究了线性MMSE幅度谱估计器和对数域MMSE幅度谱估计器的原理,通过实验对比,发现对数域MMSE幅度谱估计器有更好的效果。然后针对对数域MMSE幅度谱估计器处理后的语音仍存在较多残留噪声和语音畸变的情况,引入了帧信噪比,根据帧信噪比构造噪声控制因子,语音能量最小值控制因子和残留噪声抑制因子对对数域MMSE幅度谱估计器的增益函数进行改进。最后,通过实验仿真验证本章改进确实大幅度减少残留噪声和语音畸变。(3)研究了深度神经网络技术在语音增强算法上的应用。首先研究了一种基于深度置信网络的回归模型在语音增强算法的应用,训练出一个回归模型,并验证了其在不匹配噪声测试集上的效果。其次,着眼于该网络训练中构造的带噪语音信号与实际应用场景的差异,以及噪声库无法与实际场景中噪声环境的差异,参考语音识别中提高模型泛化能力的声音信号扰动策略,本文对噪声进行频率上的扰动,使有限的噪声具备尽可能多的特性,丰富训练集,增加模型的泛化能力;然后,考虑到不同频点对误差的权重有差别,使用先验信噪比构造了频率权重系数,对损失函数进行了改进,接下来对训练得到的网络权重参数进行分析研究,发现了网络参数存在较大的冗余,将网络进行稀疏化、剪枝和重训练;最后,在最新的语音识别框架CMU Sphinx和kaldi搭建的语音识别系统上对本文改进的所有语音增强算法的效果进行验证,与传统语音增强算法的效果进行对比,实验表明,针对语音识别特性改进的语音增强算法对自动语音识别系统在噪声环境下的性能有较大提升,其中基于神经网络的语音增强算法效果最佳。