论文部分内容阅读
随着智能语音处理技术的发展,探索在各种噪声环境下依然具有良好效果的语音端点检测方法具有重要的理论意义和实际价值,是背景噪声环境下智能语音处理的研究热点之一。本文提出了一种基于噪声分类的端点检测方法,为背景噪声下的端点检测算法研究提供了一种新的思路,具有一定的参考价值。本文使用NOISE92噪声库和TIMIT语音数据库合成不同噪声类型和信噪比的带噪语音,对四种端点检测算法进行比较分析,建立了基于三种特征值的噪声分类方法,实现了基于噪声分类的自适应端点检测方法。本文首先通过对传统端点检测算法进行了研究,发现除了信噪比之外,噪声的其他特性也会影响算法的性能,没有一种算法能在所有噪声下都具有非常好的语音端点检测效果。然后实现了基于谱熵选择特征值的方法:当噪声谱熵大于语音时,取对数和能量作为特征,否则取对数积能量作为特征;在长时谱差(Long-term Spectral Divergence,LTSD)算法基础上引入了子带分析和一个基于语音存在概率和动态一阶平滑系数的噪声估计方法;在基于周期、非周期功率谱比值的算法中,加入了三电平中心削波互相关函数和循环均值幅度差分函数相结合的基频提取方法。接下来使用三种噪声特性、建立了硬判决和基于模型的噪声分类方法。最后,选择了三种分类方法中正确率最高的基于神经网络的方法,设计了一种基于噪声分类的端点检测方法。该方法可以根据噪声的特性选择相对最优的端点检测算法,可以有效避免最差的端点检测方法,并权衡计算复杂度和正确率。信噪比高时直接采用最简单的双门限法;信噪比低时,进行噪声分类:对于较为平稳的噪声采用最简单的基于对数能量过零率比值的算法,非平稳的有基频的噪声采用了改进的LTSD算法,非平稳的无基频的噪声则采用周期成分与非周期成分比值的(periodic to aperiodic component ratio,PAR)算法。实验结果表明,本文改进的LTSD算法和PAR算法比原算法准确率有所提高,设计的基于噪声分类的端点检测算法获得了80%以上的平均正确率。