论文部分内容阅读
语音增强的目标是从带噪语音中去除噪声干扰,尽可能提取纯净语音。语音增强具有减小语音失真、提高语音质量和降低听觉疲劳度等作用。目前语音增强技术已普遍应用于移动通信、计算机、智能穿戴设备、智能家居等产品和领域中。传统单通道语音增强算法可以较好地抑制平稳噪声,达到提高语音质量的目的,但对于听力正常人群处理后语音可懂度并没有显著提升。传统语音增强算法基本都需要进行噪声估计。噪声估计的准确度直接关系到算法的降噪性能和语音失真量。通常谱减类、维纳滤波、子空间类等单通道语音增强算法对平稳噪声的估计和更新可以取得令人满意的效果,可是在更多的现实场景中,如餐厅、车站候车厅等,噪声谱特性随时间不断变化,这些算法的噪声估计效果变得不尽理想,降噪性能大幅下降,因此这些算法的应用环境和场景也变得有限。针对当前单通道语音增强存在的局限性,本论文研究基于图像边缘保持滤波技术的语音增强算法,首先利用图像处理中的双边滤波和引导滤波算法,通过理论建模研究时频单元和图像像素点的异同,利用保边去噪的优势处理语谱图的时频单元,在平滑背景噪声的时候保持语谱图语音特性的边缘信息。此外针对当前有监督算法的研究现状和问题,本论文利用基于语谱图降噪卷积神经网络的方法进行语音增强。本文的研究旨在一方面在无噪声估计环节下提升语音质量,另一方面改善当前已有算法抑制非平稳噪声不理想的现状。本文的具体工作和创新点体现在以下三个方面:(1)提出基于双边语谱图滤波改进OMLSA(Optimally Modified Log-spectral Amplitude)算法进行语音增强。运用双边滤波技术处理语音信号的语谱图来实现语音去噪,把纯净语音的语谱图当成一幅纯净图像,每一个时频单元代表一个像素点,而把带噪语音归一化后的语谱图当成是一幅干净图像受到噪声干扰或雾化的结果,利用增强的语谱信息估计OMLSA算法的后验信噪比,对噪声信号的噪点和模糊区域进行有效抑制,最终获得较纯净的语谱图,并重构出时域的语音信号。(2)提出一种基于听觉掩蔽效应的引导语谱图滤波语音增强算法。通过分析引导滤波算法在图像中的运算和应用,受益于引导滤波算法结构本身的局部线性模型,使得边缘保持效果和算法效率均优于双边滤波,且成功地克服了双边滤波等方法的梯度反转问题。作出引导语谱图滤波表达式的理论推导,提出基于听觉掩蔽效应的引导语谱图滤波语音增强算法,利用引导滤波抑制语谱图背景噪声,锐化语谱来提取纯净语音,并结合人耳的听觉掩蔽效应,对增强后的语谱根据听觉掩蔽阈值的大小自适应地调整和削减残余噪声。在不同的噪声环境下全面对比多种传统单通道语音增强算法的性能,重点研究引导语谱图滤波应对平稳和非平稳态噪声环境的性能兼具的效果,实现语音质量、语音可懂度和自然度的提升。(3)研究基于语谱图降噪卷积神经网络的方法进行语音增强,通过引入监督学习解决双边滤波和引导滤波算法出现的中低频残留噪声问题。将语音信号按照图像的特征提取方式,用语谱图当做训练集,应用性能突出的降噪卷积神经网络进行语谱图降噪处理,避开传统语音特征常用的循环神经网络的开发深度有限、复杂度过大的问题,依靠语谱图裁剪策略更容易获得大量训练数据,空间存储成本小很多。采用较深层的网络,致力于提高容量和灵活性来利用语谱图特征,也能捕捉到足够多的空间信息使降噪性能更好。研究的模型在卷积神经网络训练中应用残差学习策略,并引入批规范化,对模型的性能有较大的提升。不管是已见噪声情况还是未见噪声的情况,所提出的语谱图降噪模型都表现出比较好的学习能力和降噪性能,表明了本文的语音增强系统较好的鲁棒性。