论文部分内容阅读
随着通信技术的不断发展,语音增强算法也被广泛研究。一些传统的语音增强方法,例如谱减法,维纳滤波法,统计模型法等等在平稳噪声环境中取得了较好地增强效果,但是,由于没有考虑语音和噪声的先验信息,这些传统语音增强算法在非平稳噪声环境中的增强效果并不理想。为了解决这一问题,基于先验信息的语音增强算法应运而生,例如码书驱动算法等。该类算法在线下将语音与噪声的自回归系数训练成为先验码书,并以此作为语音和噪声谱形状的先验信息,之后在线上结合参数估计器估计模型参数(包括自回归系数和谱增益),并利用估计得到的模型参数构建维纳滤波器,最后,通过维纳滤波器实现语音增强。这类算法可以较好地处理非平稳噪声。但仍有一些不足之处。例如,这类算法通过对谱形状建模实现语音增强,忽略了谱细节的作用。导致算法不能抑制谐波噪声。此外,噪声的谱形状与噪声类型间较大的相关性使得噪声预分类成为增强过程中必不可少的一步。为此,本文提出了相应的解决方法。本文的研究工作包括如下两部分。(1)借助双耳线索编码(Binuaral Cue Coding,BCC)原理,本文提出一种基于双耳线索码书的语音增强算法。该算法中,语音和噪声的双耳线索作为其先验信息在线下被训练成先验码书,避免了噪声分类的问题。之后,该算法在线上结合加权码书映射(weighted codebook mapping,WCBM)算法估计纯净线索参数。最后,考虑到谱细节的作用,本文利用BCC原理设计出增益函数来实现语音增强,解决了传统的码书驱动类算法中无法抑制含噪语音谐波间噪声的问题。(2)针对WCBM算法估计纯净线索参数时不准确的问题,本文提出了一种基于深度神经网络的双耳线索语音增强算法。该算法采用深度神经网络(Deep Neural Network,DNN)估计纯净线索参数。相较于WCBM算法,DNN直接通过预增强线索参数估计纯净线索参数,拥有更高的准确性。本文采用在语音增强算法中常用的堆栈式自编码器作为深度神经网络估计纯净线索参数,解决纯净线索参数估计不准确的问题。本文采用语谱图,PESQ(Perceptual Evaluation of Speech Quality),对数谱失真,分段信噪比对所提语音增强算法进行了性能测试。测试结果表明,本文所提出算法的性能均优于参考算法。