论文部分内容阅读
随着语音信号处理中各项技术的发展,语音激活检测技术已经在通信系统的各个领域中得到了成功应用,种种需求使得VAD技术有着广阔的发展前景。语音激活检测技术能够使通信系统中对带宽的利用率提高一倍以上,在移动通信、卫星通信以及其他带宽有限的通信系统中有重要意义;能够减少手持设备的平均能量消耗;使得信道能够同时传输更多路的数据;对声音监控等需要海量存储语音信息的应用,能够大量节约存储空间。在过去的几十年里,语音激活检测技术得到了极大的发展,除了经典的利用语音信号与噪声之间的能量差异的基于信号能量的检测方法,还有利用语音和信号高阶统计特征差异的统计检测算法,利用小波变换的检测算法,基于隐马尔科夫模型的检测算法,基于倒谱的检测等。这些方法提高了语音激活检测的准确性,但由于语音信号特别是其中的清音信号(Unvoiced Speech)本身就具有类似噪声的特性,而不同类型的噪声也具有截然不同的特征,使得尽管在安静环境下的干净的语音信号的激活检测比较容易,但在低信噪比条件下的受到噪声污染的语音信号的激活检测仍然有很大困难。本文基于语音产生的生理模型提出了一种具有实用价值的语音产生的源(激励)-滤波模型,在这一模型的基础上通过利用语音信号中的音调信息和线性预测分析方法,构造了由两个子检测器组成的广义似然比语音激活检测器。两个子检测器分别针对语音信号中的清音信号和浊音信号进行检测。用“估值-插入”(estimate-and-plug)的方法将语音的基频信息输入用于浊音检测的子检测器L1,将线性预测分析信息同时输入两个子检测器L0和L1,然后进一步通过两者的线性联合,用线性判别分析的方法进行权重特征的优化,构成一个特征优化的广义似然比检测器(FO-GLRT, Feature Optimized Generalized Likelihood Ratio Test)。该检测器充分利用了语音信号中源信号的特征及声道调制过程中产生的线性预测特征,克服了基于能量检测的方法对于低能量低信噪比条件下的语音激活检测的困难,又避免了其他基于统计特征检测方法中产生的大量计算及其给系统带来的负担,特别是在VoIP中的线性预测分析合成结构(Linear PredictionAnalysis Synthesis)的语音编码应用中,在不显著增加系统计算负荷的同时大大提高了语音激活检测的准确度。实验和仿真结果证实了本文提出的检测器在多种噪声条件下均具有较好的检测性能和鲁棒性。