论文部分内容阅读
说话人识别是根据语音波形中反映说话人生理和行为特征的语音参数,自动识别出相应说话人的过程。它是语音信号处理的一个重要研究方向,作为一种生物认证技术,具有广泛的应用前景,促使越来越多的人对其进行研究。目前,基于闭集的说话人识别已经取得了比较好的进展,但是基于开集的说话人识别的识别性能还有待提高。开集和闭集是对测试说话人集的一种划分,当测试的说话人集合仅局限在训练集内时,称其为基于闭集的说话人识别;当测试的说话人集合没有训练集限制,任何话者,不论训练与否,均能作为测试集合中的一员,则称其为基于开集的说话人识别。基于开集的说话人识别,不同于闭集说话人识别的关键是开集说话人识别不仅要对测试话者是否是训练集内的话者进行判断,而且若是训练集内的话者,则还要对其进行识别,识别出其是集内的哪个话者。本文致力于对基于开集说话人识别的研究,提出了一种新的识别方法,即基于SVM和GMM的说话人辨识方法。说话人辨识是指对说话人进行分辨和识别,分辨测试话者是否是训练集内话者,若是训练集内话者则还要识别出其是训练集内的哪位话者。用到的模型是SVM-GMM模型,该模型是结合了支持向量机(SVM)和高斯混合(GMM)两种模型。支持向量机模型是以统计学习理论中VC维理论和结构风险最小原理为基础,根据有限的样本信息在模型的复杂性与学习能力之间寻求最佳折中,获得了较好的推广能力。大量的实验已经证实支持向量机有着优秀的分类能力,基于此,本研究将其选为第一步粗分类模型。而高斯混合模型是用多个高斯分布的线性组合,拟合说话人的特征分布。它能很好的描述说话人语音特征的内部的相似性。前人的研究也表明该模型是在说话人确认系统表现出良好的性能。故本研究选用高斯混合模型作为第二步精细的确认模型。在识别阶段,首先用支持向量机模型对测试的话者进行粗分类,然后再用高斯混合模型对分类结果进行确认,判断测试话者是否就是其在粗分类中所分到的类别。若是,则表明该测试话者就是其所分到类别所对应的话者;若否,则表明该测试话者是训练集外话者。本研究就是通过这种方法来实现对说话人进行分辨的。实验表明,本研究所提出的方法是有效的,能有效的提高对集外话者的分辨率。