论文部分内容阅读
语音增强方法的研究虽取得了很多的进展,但仍存在一些问题,例如统计模型法不能够在噪声抑制和语音失真之间取得较好的折衷,而子空间语音增强方法虽然能较好地平衡噪声抑制和语音失真之间的关系,但它对有色背景噪声的消除能力较差,且只有在语音和噪声分量的KLT(Karhunen-Loeve Transform)系数服从高斯分布时为全局最优,并不满足实际信号的统计分布特性。针对以上问题,本文在对统计模型和子空间语音增强方法深入研究的基础上,结合信号的统计分布特性及统计模型方法的基本原理,提出了两种改进的语音增强方法,在白噪声和有色噪声环境下均可以有效去除背景噪声,改善增强语音的听觉质量。 本文的研究工作主要体现在以下几个方面: 首先,对基于统计模型的语音增强方法进行了深入研究。在现有β阶最小均方误差幅度谱估计器(β-order Minimum Mean Square Error,β-MMSE)的基础上,利用更加接近于真实语音幅度谱分布的超高斯模型对纯净语音信号的短时幅度谱进行建模,提出了一种改进的β阶MMSE(β-SG-MMSE)语音增强方法,有效验证了信号的统计分布特性对增强算法性能的影响,并改善了增强算法的性能。该方法可以根据分带信噪比自适应调整估计器的阶数,从而对背景噪声进行不同程度的抑制,并利用基于此超高斯模型的语音存在概率对得到的幅度谱估计器进行修正,进一步抑制噪声,改善增强语音的主客观质量。 然后,本文针对现有子空间语音增强方法在非平稳和有色噪声环境下噪声估计不准确的问题,提出了一种基于特征值差异的自适应噪声估计方法。该方法根据含噪语音的特征值差异来跟踪背景噪声的变化,并利用语音增强残差对语音存在段的噪声估计进行修正,从而能够有效避免噪声估计的延迟和偏差问题。并将此方法应用于时域约束(Time Domain Constrained,TDC)子空间增强算法中,得到了一种基于自适应噪声特征值估计的子空间语音增强方法(Subspace SpeechEnhancement Method Based onAdaptive Noise Eigenvalue Estimation, SSE_ANE)。 最后,本文通过对纯净语音和噪声信号KLT系数的统计分布特性及人耳听觉掩蔽效应的研究,提出了一种子空间域的统计模型语音增强方法。该方法利用拉普拉斯模型对纯净语音的KLT系数分布建模,并根据贝叶斯准则得到子空间域纯净语音KLT系数的MMSE估计器,同时,利用人耳听觉掩蔽效应在噪声抑制和语音失真之间取得更好的折衷,改善语音质量。 本文在分段信噪比,对数谱失真,PESQ(Perceptual Evaluation of SpeechQuality)及国际电信联盟电信标准部ITU-T(International TelecommunicationUnion,Telecommunication Standardization Sector)G.160标准下对各种算法进行了性能测试。测试结果表明,本文所提出算法的整体性能均优于参考算法。