论文部分内容阅读
在语音信号处理系统中,噪声信号会对系统性能造成极大损害。因此,通常采用语音增强技术滤除语音信号中的噪声污染,以提升该段语音的质量。在实际应用场景中,噪声种类的丰富性和噪声特征的多样性大大限制了语音增强算法的性能,降低了增强后语音信号的质量,特别是信号的可懂度。因此本文提出了一种基于噪声分类的语音增强系统,主要包括以下三个部分:语音端点检测、噪声分类和噪声功率谱估计。
首先,使用语音端点检测算法区分噪声帧和语音帧。本文提出一种基于长时信号功率谱变化的语音端点检测算法。该算法将信号在长时段下功率谱的变化量作为区分噪声帧和语音帧的特征。在不同噪声环境及信噪比下,该算法均具有更高的检测准确率,尤其在非平稳噪声条件下的检测效果提升明显。
然后,使用噪声分类算法识别噪声类型。本文提出了一种基于卷积神经网络的噪声分类模型,该模型将多帧噪声信号的梅尔倒谱系数作为区分噪声类型的特征。在无干扰的环境下,该模型的平均分类准确率达到了98%;在有干扰的环境下,该模型的平均分类准确率为85%。
最终,根据噪声分类的结果,选择最优的参数组合使用改进的最小控制递归平均算法((Improved Minima Controlled Recursive Average,IMCRA)算法估计噪声功率谱,并使用OM-LSA进行语音估计。与传统的基于IMCRA的语音增强算法,本文提出的算法能够更好的提高带噪语音信号的质量,特别是带噪语音信号的可懂度。
本文在TIMIT标准语音库和Noisex-92标准噪声库上对所提出的算法进行性能测试。通过语谱图,可以直观看出增强后的语音信号在降噪的同时能够更好的保留语音信号的细节特征;并使用分段信噪比(Segmental Signal-Noise Ratio, Seg-SNR)、短时目标可懂度(Short-Time Objective Intelligibility, STOI)以及语音质量感知评估(Perceptual Evaluation of Speech Quality, PESQ)这三种客观评价指标衡量语音增强算法的性能,相比传统的IMCRA算法,使用本文算法增强后的语音信号的客观评价指标明显提高。
首先,使用语音端点检测算法区分噪声帧和语音帧。本文提出一种基于长时信号功率谱变化的语音端点检测算法。该算法将信号在长时段下功率谱的变化量作为区分噪声帧和语音帧的特征。在不同噪声环境及信噪比下,该算法均具有更高的检测准确率,尤其在非平稳噪声条件下的检测效果提升明显。
然后,使用噪声分类算法识别噪声类型。本文提出了一种基于卷积神经网络的噪声分类模型,该模型将多帧噪声信号的梅尔倒谱系数作为区分噪声类型的特征。在无干扰的环境下,该模型的平均分类准确率达到了98%;在有干扰的环境下,该模型的平均分类准确率为85%。
最终,根据噪声分类的结果,选择最优的参数组合使用改进的最小控制递归平均算法((Improved Minima Controlled Recursive Average,IMCRA)算法估计噪声功率谱,并使用OM-LSA进行语音估计。与传统的基于IMCRA的语音增强算法,本文提出的算法能够更好的提高带噪语音信号的质量,特别是带噪语音信号的可懂度。
本文在TIMIT标准语音库和Noisex-92标准噪声库上对所提出的算法进行性能测试。通过语谱图,可以直观看出增强后的语音信号在降噪的同时能够更好的保留语音信号的细节特征;并使用分段信噪比(Segmental Signal-Noise Ratio, Seg-SNR)、短时目标可懂度(Short-Time Objective Intelligibility, STOI)以及语音质量感知评估(Perceptual Evaluation of Speech Quality, PESQ)这三种客观评价指标衡量语音增强算法的性能,相比传统的IMCRA算法,使用本文算法增强后的语音信号的客观评价指标明显提高。