论文部分内容阅读
语音增强在语音信号处理系统及人工智能系统中有广泛应用。在实际环境下,传统的语音增强算法存在增强性能低、泛化性能差等问题。本文结合人耳听觉感知特性,借助近几年新兴的深度学习网络结构,研究了基于深度神经网络的单通道语音增强方法。论文主要提出以下两种算法:基于多分辨率耳蜗谱图MRCG(Multi-Resolution Cochleagram Feature)和深度神经网络DNN(Deep Natural Nets)语音增强方法,基于二维语谱图和条件生成对抗网络cGAN(Condition Generative Adversarial Nets)的语音增强算法。(1)基于多分辨率耳蜗谱图的深度神经网络语音增强算法。与传统采用短时傅里叶变换STFT(Short-Time Fourier Transform)等特征参数不同,本文算法基于Gammatone滤波器组模拟人耳的时频分析特性,提取每个时频单元的多分辨率耳蜗谱图MRCG作为频谱特征,并将每个时频单元以及前后两帧的MRCG特征进行拼接,作为包含两个隐层的DNN网络的输入特征参数进行训练,训练目标为当前时频单元的理想概率掩蔽IRM(Ideal Ratio Mask)。DNN采用均方根优化算法RMSProp(Root Mean Square Prop)来更新梯度,解决了传统网络梯度更新不稳定的问题。论文采用客观评价指标PESQ(Perceptual Evaluation of Speech Quality)和主观感受指标STOI(Short-time Objective Intelligibility)作为语音增强评价指标,实验结果表明该算法在提升PESQ上有较好的表现。(2)基于二维语谱图和条件生成对抗网络cGAN的语音增强算法。cGAN网络目前多应用于生成指定标签的图像增强和识别。本文将语音的二维语谱图作为指定标签,充分考虑相邻帧之间的关联性,提出基于cGAN的含噪语谱图到增强语谱图的映射算法。cGAN借鉴了相互对抗的博弈思想,采用原始含噪语音作为条件与随机噪声一起输入到G网络中,并且借助U-Net结构,即编码器-解码器结构进行训练,在上采样层和下采样层之间添加跳跃连接,保证了浅层特征在整个网络中的流通性。在多种噪声和不同信噪比环境下进行仿真实验后,结果表明该算法增强后的语音PESQ分值得到较大幅度的提升,同时STOI值均优于基于MRCG的语音增强方法,且对于混合人声环境下的PESQ有明显提升效果。另外,论文扩展了噪声类型,仿真结果表明该算法泛化性能较好,具有较强的鲁棒性。