论文部分内容阅读
变速率语音编码一直是数字语音信号处理的重要领域之一,目前在许多通信标准中都引入了变速率语音编码技术。在确保编码质量的前提下,变速率语音编码技术充分利用了会话语音中出现的停顿和静默间隔(非语音段),对语音段和非语音段用不同的比特率进行编码,从而达到降低编码比特率的效果。在存储方面,变速率语音编码通过降低比特率从而降低系统对存储设备容量的要求;在传输方面,降低比特率可以带来更低的传输带宽、功率和信道间相互干扰,并且可以降低便携设备的功率损耗。
语音激活检测(Voice Activity Detection,VAD)作为决定变速率语音编码效果的关键技术,在变速率语音编码系统中用于判断语音段与非语音段。传统的语音激活检测方法通常基于基本的语音参数利用一定的判决准则进行判断,然而这样的算法不具有普适性,对噪声环境较为敏感。
本文以变速率语音编码背景下的VAD算法为研究对象,针对上述传统语音激活检测技术存在的诸多问题,做了如下的工作:
1)详细分析讨论了语音及背景噪声的特性。
VAD的目的是检测出加噪语音的语音段和非语音段,这就要求深入研究理解语音信号和各种噪声信号的各种特性。寻找本质上更能区分语音与背景噪声的特性,这对噪声背景下的各种语音信号处理算法都具有极其重要的意义。
2)分类介绍了国内外各种主流的VAD算法进行,对其中重要算法进行仿真与性能分析。
本文通过对主流重要VAD算法仿真性能分析,发现基于谱熵VAD算法在高斯白噪声背景下性能更为出色,而经过优化的基于高阶统计量(Higher-OrderStatistics,HOS)VAD算法能够适应多种噪声环境,更具普适性。
3)提出一种改进的基于子带谱熵的VAD算法。
改进的子带谱熵VAD算法利用语音子带谱熵与噪声子带谱熵在统计特性上存在的差异,将度量信号统计特征的方差、均值与传统子带谱熵相结合。计算机仿真结果显示,在一定信噪比下,改进谱熵VAD算法很好地改善了传统谱熵VAD存在的缺陷(语音剪断),较准确地将语音片与非语音片区分开;与传统VAD算法相比,该算法在低信噪比下能够更好地区分出说话人的语音段。
4)提出基于Teager能量域的高阶统计量算法。
将Teager能量算子和高阶统计量结合起来用于区分有色噪声背景下的语音段与非语音段。加噪语音通过Teager能量算子,可以在白化抑制非高斯噪声的同时能较清晰地跟踪语音能量轨迹,语音的高阶统计量参数可以将语音段与高斯白噪声段或类高斯白噪声分开。该算法在某种程度上克服了基于线性预测残差域的高阶统计量语音激活检测算法在色噪声环境下性能较差的弱点。仿真结果显示该算法检测准确性和鲁棒性综合性能都优于ITU-T的G.729B中的VAD算法,以及基于线性预测残差域的高阶统计量语音激活检测算法。