论文部分内容阅读
现代语音通信系统中,大部分的语音信号往往受到背景噪声的干扰,在一定程度上降低了语音信息的可辨性和人耳的听觉舒适性,不利于后继的语音信号处理工作的开展。为了改善语音质量,语音增强技术应运而生,希望在尽可能不引入新噪声的前提下,抑制背景噪声对语音信息的负面影响,提高带噪语音的可辨性。 鉴于语音信号的稀疏先验性,本文基于稀疏表示框架实现对带噪语音的增强处理。通过对字典训练算法和目标优化函数的分析,分别研究了基于K-SVD(K-Singular Value Decomposition,K-奇异值分解)自适应稀疏字典的语音增强方法、基于CNMF(Convolution Nonnegative Matrix Factorization,卷积非负矩阵分解)的语音增强方法、基于BPFA(Beta Process Factor Analysis)融合模型的自适应语音增强方法和基于鲁棒贝叶斯自适应字典稀疏表示(Robust BayesianDictionary Learning using Spike-slab Prior,RBDL)模型的语音增强方法。为验证语音增强效果,本文采用信噪比SNR和主观评测PESQ分数作为评价标准。在ZOIEUS语音库上,分别针对携带不同信噪比高斯噪声或有色噪声的带噪语音,采用上述四种不同的语音增强方法(KSVD、CNMF、BPFA和RBDL)进行降噪处理,由实验统计出的主客观指标结果显示,相较于传统的语音增强方法(谱减法和维纳滤波法),本文基于稀疏表示实现的四种语音增强方法都能取得较好的降噪性能,其中BPFA算法和RBDL模型在计算速度上有很大优势,在干净语音及噪声类别未知的情况下能够获得很好的PESQ及SNR值。 本文的创新点如下: (1)基于CNMF字典融合策略,提出一种统一参考字典的语音增强算法,利用与待处理带噪语音无关的干净语音训练出统一参考字典,融合各种噪声字典,以解决干净语音未知情况下带噪语音增强的问题。与直接使用相关干净语音训练得到的字典进行CNMF语音增强处理相比较,统一参考字典的CNMF语音增强方法获得的SNR和PESQ主客观评价结果有一定程度的降低,但对有色噪声的抑制能力较强,具有较好的实用价值。 (2)基于非参数贝叶斯概率模型,对字典原子增加Bernoulli先验分布及贝塔分布的约束,采用BPFA融合模型实现语音增强。不需要人工干预设置模型参数,基于BPFA的语音增强方法可根据输入语音信号自适应收敛得到最佳解决策略,相较于其他基于稀疏表示的语音增强方法,具有较快的计算效率和较高的降噪性能,对高斯噪声有很好的增强效果。 (3)基于RBDL模型的语音增强算法,在BPFA框架基础上加入残余噪声分量,实验结果表明在高斯噪声处理能力上RBDL模型比BPFA算法更具有鲁棒性和自适应性,达到语音增强的目的。