论文部分内容阅读
语言是人类最重要的交流工具,语音信号作为语言载体在不同的层面包含了大量的信息。其中与说话人相关的信息可以辨认说话人是谁或者确认此说话人是否为某特定的人。如今自动说话人识别技术在低噪声、低失真环境下的识别率已经相当的高,但实际环境中无处不在的噪声导致了训练模型和测试语音之间的失配,这使得噪声环境中说话人识别系统的识别率急剧下降。因此提高噪声环境下说话人识别系统的性能是说话人识别系统从实验室走向实用的关键,也是当前的研究热点。说话人识别技术主要包括特征提取和模式识别两大模块,本文分别从人的发音器官和听觉器官研究了特征参数的提取和抗噪性能,并对当今主流分类器做了深入的研究。所有工作主要针对噪声环境下文本无关的开集说话人辨识展开。在预处理阶段,考虑到广泛应用于编码理论的信息熵代表信源的平均不定性能导致语音的熵和噪声的熵存在较大差异,本文采用了基于熵函数的语音端点检测方法,试验表明谱熵法在信噪比较低和非平稳噪声下具有良好的性能,进而提出了一种动态阈值的方法检测语音端点。考虑到噪声频带一般不覆盖整个语音范围,因此,本文采用多子带特征提取,并在每个频带内使用基于Teager能量的子倒谱特征。本文还设计了一种用AdaBoost算法优化的支持向量机与高斯混合模型相结合的系统。首先用优化的支持向量机对每个子带分别决策,筛选出训练集之外的说话者,然后对集内人用判别结果进行特征加权以突出对识别结果影响较大的子带特征,从而降低了噪声对对识别结果的影响,最后用优化的高斯混合模型进行识别。试验结果表明,本文系统在低信噪比环境下具有较好的识别性能。