论文部分内容阅读
随着人工智能领域的快速发展,语音交互技术在现实生活中的应用越来越广泛。然而,语音信号非常容易受到周围环境中噪声的干扰,从而导致语音交互中的延时及错误识别等问题。语音增强技术可以有效提升语音质量和可懂度,是语音通信、语音识别等技术的重要前端信号处理技术。语音增强技术可大致分为两类:一是传统的基于数字信号处理的增强方法;二是基于有监督学习的增强方法。传统增强方法是语音增强技术的基础,具有重要研究意义。而基于深度学习的语音增强方法在大数据背景下取得了显著的效果。因此,本文将基于深度神经网络的语音增强算法作为主要研究对象,同时结合传统语音增强方法,旨在提高语音增强算法的性能。主要研究内容如下:首先,本文假设语音信号的傅里叶变换系数的幅度谱服从Chi分布,提出了Chi分布下改进的基于听觉感知广义加权的贝叶斯估计器,该估计器在去噪效果上优于传统的贝叶斯估计器。但是与平稳噪声相比,改进的贝叶斯估计器对非平稳噪声的处理效果仍不够理想。基于深度神经网络的语音增强方法虽然针对非平稳噪声效果较好,但是网络的训练过程耗时耗力。有实验证明,在深度神经网络训练阶段,使用经过增强的特征作为输入特征,会比原始特征实现更好的效果。而且经过贝叶斯估计器增强过的带噪语音信号残留的噪声类型也相对统一,在一定程度上可以减少网络训练时间和数据量。所以,本文综合二者的优点,接着提出了改进的贝叶斯估计器与深度神经网络相结合的语音增强算法。仿真实验结果表明联合的新型网络结构比单独两种算法增强效果更佳。最后,针对深度神经网络训练阶段使用的最小均方误差(Minimum Mean Square Error,MMSE)代价函数对非平稳噪声处理效果不理想的不足,本文提出采用最小误差熵(Minimum Error Entropy,MEE)代价函数代替传统MMSE代价函数。将MEE代价函数加入之前改进的语音增强算法,进而提出了一种基于MEE优化准则的联合Chi分布下基于听觉感知广义加权的贝叶斯估计器与深度神经网络的语音增强方法。通过对比实验证明了此改进方法的有效性。