论文部分内容阅读
语音增强已运用于诸多领域,比如免手持的车辆装备,移动通信,电话会议和助听器,旨在从含噪语料中增强干净语音。作为自动语音识别的前端,它在改善设备在噪声环境中的性能和克服训练集和测试集之间的匹配失衡上发挥至关重要的作用,为降低词错率做出重要贡献。在目前的研究中,深度学习(Deep Learning)技术因其建模能力强,能充分挖掘语音信号的时空结构和时序相关性信息,而逐渐代替传统技术,成为主流的语音增强算法。基于目前的研究成果,如何提高低信噪比和非平稳噪声环境中的语音增强效果,仍是该领域的核心挑战。针对以上问题,本文在语音增强的特征选择和设计,模型建立与优化方面做了如下工作:1.针对现有特征种类多但在非平稳噪声和低信噪比环境中鲁棒性不强的问题,本文做了两方面的工作:首先,针对当前性能最优的多分辨率耳蜗谱图(Multi-Resolution Cochleagram Feature,MRCG)特征中,采用均值滤波器对高分辨率耳蜗谱图进行平滑而导致的降噪效果不理想问题,本文挑选降噪性能更优的中值滤波、自适应中值滤波和Alpha均值滤波替换原始的均值滤波器以计算MRCG特征中的低分辨率耳蜗谱图,提升特征的鲁棒性,并通过实验确定了滤波器最佳窗长设置;其次,本文运用Group Lasso算法对特征之间互补性进行量化,在8种主流特征中挑选出两种最具互补性的特征,并将这些特征拼接起来,作为深度神经网络(Deep Neural Network,DNN)的输入进行建模。实验证明,基于Alpha均值滤波算法的MRCG特征性能最佳;运用Group Lasso挑选出的互补特征(complementary feature)在分段信噪比、语音质量和可懂度方面都为语音增强系统的性能带来了可观改善。2.针对DNN模型优化训练,本文引入了两种优化措施:一是基于受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)的预训练机制;二是引入丢弃算法(dropout),并用整流线性单元(Rectified Linear Units,ReLU)激活函数代替sigmoid激活函数。RBM预训练可以有效学习训练数据的统计分布特性,特别是在训练数据较少的情况下,可以有效改善系统总体性能;dropout可以有效避免系统过拟合,Re LU激活函数可以最大化dropout训练效果,缩短DNN训练时间。实验证明,利用RBM进行预训练的DNN在语音增强各项指标上都有提升,尤其是针对小训练集和低信噪比的情况;引入dropout和ReLU激活函数之后,目标语音中的残留噪声明显减少。3.针对在低信噪比和非平稳噪声中准确估计训练目标较为困难的问题,本文提出一种新颖的联合DNN和卷积神经网络(Convolutional Neural Network,CNN)对训练目标进行估计的系统架构。首先,充分利用DNN自主学习能力强,善于深度挖掘语音信号频带之间相关性和时空结构的优势,进行掩蔽值矩阵估计;然后,将估计出的掩蔽值矩阵转化为灰度图,并利用CNN对转化成的灰度图进行二次识别,以降低语音频移、噪声污染对掩蔽值估计的干扰。实验证明,CNN的引入,大大提高了最终训练目标估计的准确性,使整体系统性能无论在平稳噪声还是非平稳噪声中均取得了提升;尤其是在非平稳的工厂噪声中,性能提升更为明显。