论文部分内容阅读
在不考虑任何先验知识的情况下,传统的单通道语音增强算法(如维纳滤波法、谱减法、统计模型法)虽然在平稳噪声环境下能获得较好的增强性能,但是在应对现实生活中常见的非平稳噪声时,增强语音中往往会伴随大量的波动噪声,会出现语音的高频成分丢失等问题。为此基于先验知识的语音增强方法应运而生,如码书驱动方法、隐马尔科夫模型方法和稀疏表示方法等。由于这些方法没有充分挖掘信号的时频动态特征和说话人特性,且需对噪声信号进行预分类训练,所以复杂度大而且实用性差,同时在短时间内很难准确地从非平稳的含噪语音信号中分离出纯净语音信号。为解决上述问题,本文提出两种基于长短时时频动态特征的噪声抑制方法和一种不需要噪声先验知识的基于短时时频动态特征的噪声抑制方法。(1)本文提出了一种基于数据驱动模型的语音增强方法。所提方法通过最大程度地提取语音的长时时频动态特征——最大高斯时间序列(Maximum Gaussian Temporal Sequence,MGTS),并在基于修正最大后验概率(Maximum a posterior,MAP)准则的自适应搜索算法的基础上,结合矢量泰勒级数(Vector Taylor Series,VTS)算法、连续谱合成算法和修正维纳滤波器,得到纯净语音的平滑估计结果。该方法有效恢复了被噪声淹没的语音高频成分,提高了增强语音的自然度和可懂度。(2)本文提出了一种基于语音信号的短时时频动态特性的改进稀疏表示的语音增强方法。根据基于自适应阈值和几何终止准则的最小角回归(Least Angle Regression with Geometrical Stopping Criterion,LARG)算法,确定含噪语音信号在组合字典的稀疏表示系数;并引入期望最大化(Expectation Maximization,EM)算法和修正维纳滤波器,减小了数据驱动方法的复杂度,提高了增强语音的听觉质量。(3)本文提出了一种噪声估计与改进稀疏表示融合的语音增强方法,有效地解决了噪声预分类问题。本文利用分段信噪比,对数谱失真,PESQ(Perceptual Evaluation of Speech Quality)对各种增强算法进行了性能测试。测试结果表明,本文所提出算法的性能均优于参考算法。