论文部分内容阅读
现有语音增强方法在消除背景噪声、改善语音质量的同时,往往不能在低信噪比情况下有效提高语音的可懂度。为解决这一问题,本文首先对传统的统计模型方法进行改进研究,提出一种改进的β阶加权欧式失真测度(Improved β-orderWeighted Euclidean Distortion Measure, I-β-WEDM)幅度谱估计器,能够在较高信噪比环境有效提高语音质量。进一步,在研究现有语音增强方法对语音可懂度影响的基础上,结合对语音可懂度的相关影响因素的分析,提出了一种基于语音失真和噪声过估计受控的增强方法,能够有效提高低信噪比环境中的语音可懂度。本文的研究工作主要体现在以下几个方面:首先,对统计模型增强算法进行了深入研究。β阶最小均方误差估计器(β-order Minimum Mean Square Error, β-MMSE)可以通过估计器阶数的自适应选择控制噪声衰减量,但语音存在段的残留噪声较多;而WEDM估计器能够对谱峰谱谷分配不同的失真并有效抑制谱谷处的残留噪声,但不能根据需要控制噪声抑制量。结合两种估计器的优点,本文通过引入β阶WEDM形式的损失函数,并在临界带中利用子带信噪比更新估计器阶数,提出了一种改进的β阶WEDM(I-β-WEDM)语音增强方法。并且利用国际电信联盟标准部ITU-T(InternationalTelecommunication Union, Telecommunication Standardization Sector)G.160标准对上述方法进行了性能测试,测试结果表明,与传统方法相比,I-β-WEDM方法在有效抑制噪声的同时语音质量得到更大的提高。然后,本文研究了现有语音增强算法未能提高可懂度的原因,并对语音失真及噪声过估计对可懂度的影响进行了分析。根据研究结果及二值掩码(BinaryMask,BM)准则,本文通过对噪声估计和增益函数的调整,提出了一种基于语音失真和噪声过估计受控的语音增强算法(Constraints on Speech Distortion andNoise Over-estimation,CSDNO),以达到提高语音可懂度的目的。为了进一步抑制音乐噪声,根据不同程度的语音失真对可懂度影响的不同,对信噪比估计方法进行了修正,提出了一种改进的CSDNO方法(Improved CSDNO,ICSDNO)。本文所提方法有效地改善了低信噪比下增强语音的可懂度。最后,对基于CSDNO的增强算法进行了主客观的性能测试,包括G.160测试和语音可懂度测试两方面。G.160测试结果显示,与参考方法相比,CSDNO和ICSDNO方法语音电平损失较小,客观语音质量满足要求。语音可懂度测试分为基于频域加权分段信噪比(frequency-weighted SNR segmental,fwSNRseg)和分数清晰度指数(fractionalArticulationIndex,fAI)的客观测试和判断韵字测试(Diagnostic Rhyme Test,DRT)的主观测试两部分。测试结果显示,与参考方法相比,本文所提方法能够有效地减少语音失真,提高语音可懂度。另外,利用定点C语言实现了所提语音增强方法。