论文部分内容阅读
语音端点检测(Voice Activity Detection,VAD)主要指的是检测一段语音信号的起始点和终止点,以便于分离有效的语音信号和无用的语音信号或者噪音信号,使得后续的处理更加有效率。它应用非常广泛,常用于语音识别系统、语音增强、语音编码等任务上。当前端点检测的研究主要有两个方向,其一就是通过阈值来进行检测,常用的方法有基于短时能量过零率的检测、基于信息熵的检测等。而另一种检测方法是基于模式识别的检测,常用的方法有常见的有基于隐马尔科夫模型(Hidden Markov Model,HMM)的检测、基于支持向量机的检测等。语音端点检测的检测结果好坏对后续的语音处理起着决定性的作用。本文的研究主要是基于噪声环境下的端点检测方法的研究,由于在低信噪比下的传统的检测方法都存在检测率不高的问题,因此本文首先对语音进行预处理,实现语音的有效去噪,然后通过传统的基于倒谱距离的检测方法来进行检测,在降噪的过程中,本文应用了最近几年的研究热点深度学习的知识,提出了将深度学习下的降噪自编码器用于语音去噪,并取得了一定的效果。由于噪声与语音信号之间的复杂关系,并且在我们的生活中,声音常常受到的是加性噪声的影响,因此本文重点研究了语音信号在不同噪声不同信噪比下的检测性能,实验选取了NOISE92噪声库中Factory、volvo以及white三种噪声以及纯净语音库TIMIT中部分语音数据,同时合成不同噪声类型下不同信噪比的带噪语音,在实验中,合成了包含信噪比为-10d B到10d B之间的五种带噪数据,然后通过梯度下降法(gradient descent)来训练降噪自编码器(Denoising Autoencoder,DAE),来实现对加噪之后的语音信号的重构,使其与原始纯净语音信号的误差最小,从而实现降噪的目的,进而通过倒谱距离的检测方法来实现语音端点的检测,从而提高低信噪比下端点检测的正确率。实验结果表明,特别是在低信噪比条件下传统的端点检测方法正确率都是急剧下降,但是将本文提出的方法用于语音端点检测时,其语音信号的检测正确率明显得到提升,尤其是在0dB以下的低信噪比情况下,相比传统的检测算法,其检测正确率更高。