论文部分内容阅读
数字化的语音传送、控制和识别是信息社会的基本组成部分之一。但是语音信号在获取和传送途中,都会不可避免的受到各类噪声的干扰,不仅导致接收者听到的语音质量下降,还会影响语音控制系统和识别系统的正常工作。语音数字信号处理技术已广泛地发展到了实用阶段,语音增强技术则发展为该阶段需要迫切解决的问题之一。语音增强的目的是消除噪声干扰和提高语音可懂度。针对不同类型的干扰噪声,要采用不同的语音增强策略,并且力图在抑制背景噪声的同时提高听者的舒适度。本文研究是建立在语音增强领域众多学者的优秀研究成果之上的,研究内容呈依次递进的关系,主要内容大致概括如下:1、简要阐述了语音增强技术的基本原理和常用方法,分析了各类噪声的性质和对语音的污染情况。2、对于平稳噪声干扰情况,本文将二次平滑引入语音活动检测(VAD)算法中进行后置处理,改善了VAD法估计平稳噪声时出现部分偏差的情况,采用维纳滤波来代替谱减法估计纯净语音,避免了“音乐噪声”的产生。在兼顾了复杂度和处理效果的情况下,该算法可以准确的估计出噪声并取得较好的增强效果。用多种非平稳噪声对该改进算法进行适用性分析,结果表明该算法更适用于处理平稳噪声。3、对于非平稳噪声干扰这一复杂情况,本文研究分析了数据递归法(DDR),分别用vuvuzela、babble、train和car噪声对该算法进行仿真试验,验证了该算法处理噪声污染的有效性,同时也证实了本文改进的VAD方法对复杂度和有效性进行了较好的权衡。发现了适用于平稳噪声环境下的增强算法不一定适用于非平稳噪声,但适用于非平稳噪声环境下的增强算法一定适用于平稳噪声环境的规律。DDR算法的有效实现为后文理想二元掩蔽(IBM)算法的研究提供了支持。4、提高可懂度是语音增强的重要目的。本文研究分析了能够提高可懂度的IBM算法和谐波恢复(HR)算法。IBM算法是在DDR法估计噪声方差的基础上实现的,仿真结果验证了该算法提高语音可懂度的有效性。本文采用三级分频段处理来改进了HR算法改善了传统HR法卷积运算会产生频谱混叠的问题。将IBM算法处理后的增强输出语音作为本文改进HR法的输入信号进行二次增强处理,有效提高了语音可懂度。