论文部分内容阅读
语言是人类交流最重要的工具,作为语言载体的语音信号在不同的层面包含了大量的信息。其中与说话人相关的信息可以辨认说话人是谁或者确认此说话人是否为所声言的说话人。如今自动说话人识别技术在低噪声、低失真环境下的性能已经相当的高,但实际环境中无处不在的噪声带来了训练模型和测试语音之间的失配,这使得噪声环境中说话人识别系统的识别率急剧下降。因此提高噪声环境下说话人识别系统的性能是说话人识别系统从实验室走向实用的关键,也是当前的研究热点。 说话人识别技术主要包括特征提取和模式识别两大模块,本文分别从人的发音器官和听觉器官研究了特征参数的提取和抗噪性能,并对当今主流分类器做了深入的研究。所有工作主要针对噪声环境下文本无关的开集说话人辨识展开。 在预处理阶段考虑到广泛应用于编码理论的信息熵代表信源的平均不定性导致语音的熵必定和噪声的熵存在较大差异,本文采用了基于熵函数的语音端点检测方法,试验表明谱熵法在信噪比较低和非平稳噪声下具有良好的性能,并进而针对本文提出了一种动态阈值的方法检测语音端点。 考虑到语音在整个频带上是非均匀分布的,本文采用多子带特征提取,并在每个频带内使用基于Teager能量的子倒谱特征。并提出了一种支持向量机与高斯混合模型相结合的系统。首先用支持向量机对每个子带分别决策,筛选出训练集之外的说话者,然后对集内人用判别结果归一化值进行特征加权以突出对识别结果影响较大的子带特征。试验结果表明,本文系统在低信噪比环境下仍然具有较好的识别性能。