论文部分内容阅读
在现实生活,语音信号往往会被周围环境中存在的各种各样的噪声所污染,严重影响语音处理系统的性能。在这种情况下,我们需要采用语音增强技术对被噪声污染的语音信号进行降噪处理,抑制背景噪声,提高语音质量。传统的语音增强算法对平稳噪声的抑制效果比较明显,但在非平稳噪声的情况下往往不能得到令人满意的效果。除此之外,传统的语音增强算法一般只在某一种噪声环境下降噪效果不错,很难应用于复杂多变的噪声环境中。针对传统的语音增强算法的局限性,本文利用深度学习的优势提出了一套完整的语音增强算法。本文的研究工作主要分为以下几个方面:(1)基于现有的语音特征参数,提出了一个改进的语音特征参数-多分辨率听觉倒谱系数(Multi-Resolution Auditory Cepstral Coefficient,MRACC)。该特征参数是在多分辨率耳蜗图(Multi-Resolution Cochleagram,MRCG)的基础上进行改进的。MRCG多分辨率的特性不仅可以关注语音高分辨率的特征,又可以把握低分辨率的特征。但它采用对数曲线压缩语音能量来模拟人耳对音强感知的非线性特性不是特别合适,本文改为幂函数映射进行压缩。除此之外,MRCG特征维数较大,计算复杂度高。本文采用离散余弦变换(Discrete Cosine Transform,DCT)对特征进行降维来降低计算复杂度。实验结果表明,本文所提出的改进的语音特征参数-多分辨率听觉倒谱系数在低信噪比复杂环境下,具有更好的鲁棒性和适应性。(2)本文利用深度学习中的深度神经网络(DNN)有强大的非线性映射能力,构建了一个基于DNN的语音增强模型。其结构由1个输入层,4个隐含层和1个输出层构成。输入层用来输入含噪语音的特征参数,隐含层由多层堆叠而成,输出层用来输出估计的目标。当隐含层数目太少时,不能很好地学习输入和输出之间的映射关系,但随着隐层数目的增多,网络结构变得复杂,它的映射能力下降。实验中发现隐含层数目为4时,语音增强性能最好。各层的节点数依次为432-1024-1024-1024-1024-64。其中输入层各节点代表MRACC特征,输出层的各节点代表一帧的Gammatone滤波器组64个频率通道的掩蔽值。(3)基于现有的时频掩蔽的目标,本文提出了一个自适应掩蔽阈值。由于理想二值掩蔽(Ideal Binary Mask,IBM)是计算听觉场景分析的主要计算目标,已经被证明不仅去除噪声比较干净,而且能够极大地提高语音的可懂度,但是对语音质量损害较为严重。而理想比值掩蔽(Ideal Ratio Mask,IRM)可以同时进一步提高语音的可懂度和语音质量,但是残留的噪声比IBM多。因此可以将二者结合起来通过跟踪噪声变化自适应的估计出IBM和IRM前面的系数,进而计算出一个自适应掩蔽阈值。实验结果表明,和IBM相比,自适应掩蔽阈值同时提高语音的质量和可懂度。和IRM相比,在可懂度相当的同时,不仅消除了更多的噪声,还提高了语音的舒适度。(4)基于上面的技术构建了一套基于深度学习的语音增强算法。与对比算法相比,该算法不仅对噪声具有更强的鲁棒性,抑制了更多的背景噪声,而且进一步提高了增强语音的质量和可懂度。