论文部分内容阅读
语音增强是指从含有噪声的语音信号中恢复纯净语音信号的任务。语音增强的目的是为了提高被噪声干扰的语音信号的语音质量和可懂度。语音增强有很多的应用领域,包括移动语音通信、助听器设计、自动语音识别和自动说话人识别等。在过去的几十年里,科学家们提出了很多语音增强方法。例如谱减法和维纳滤波法,但这两种经典方法的一个共同问题是将“音乐噪声”引入到了增强后的语音中;直到Malah等人提出了基于最小均方误差估计的语音增强模型,才取得了优于谱减法和维纳滤波的性能,音乐噪声的问题也得到了有效改善;在此之后,众多的基于最小均方误差的语音增强方法被科学家们提出,例如基于最小均方误差准则的对数谱幅度估计算法和最优改进的对数谱幅度估计算法。在这些传统方法中,大部分方法都假设噪声频谱的估计是可用而且准确的,然而在低信噪比的条件下,噪声模型却很难被准确估计,这样就会导致语音增强后的信号出现失真现象。为了克服传统语音增强方法的不足,基于深度学习的语音增强方法近些年来发展迅速,深度神经网络已被成功地应用于语音增强模型的训练。这些新方法使用的训练网络主要包括深度神经网络、卷积神经网络、递归神经网络、生成对抗网络等。此外,还有许多深度神经网络模型与传统方法的结合,例如深度神经网络与维纳滤波的结合,深度神经网络与非负矩阵分解的结合。通过庞大数据集的训练,这些深度学习模型通常都可以获得比传统语音增强方法更好的性能。然而,在我们研究课题的应用场景中,现有的基于深度学习的语音增强方法的性能并不总是令人满意的,因为在军事战场环境下,噪声能量往往在某些语音片段中占据主导地位,因此淹没目标语音,导致语音失真现象的出现。本文针对复杂战场环境中存在例如枪炮声、爆炸声等多种强噪声类型同时干扰目标语音的语音增强问题,提出了一种基于深度神经网络和循环神经网络的语音增强改进方法。在该方法中,基于循环神经网络的语音分类模型判断样本语音信号的每一帧是否处于低信噪比状态,继而根据循环神经网络的输出值融合两个基于深度神经网络的语音增强模型。在实验测试阶段,我们通过语音质量感知评价和短时客观可懂度这两个指标在各种噪声条件下的评分,与现有的基于深度神经网络的语音增强技术进行了比较。实验结果表明,与最先进的技术相比,该方法有显著的性能提升,反映了该方法在真实战场环境中的可用性。