论文部分内容阅读
说话人识别(Speaker Recognition)是指利用人的声音来检测说话人的身份,是一项重要且具有挑战性的生物认证研究课题。说话人识别有两类重要应用,一类是说话人辨识,指从待选说话人集合中判断测试语音所属的话者身份。另一类为说话人确认,是通过给定的声音信息对说话人的身份进行二元判定。 目前,在大部分说话人确认系统中,每个说话人的模型是通过对该说话人的语音特征数据进行基于生成模型的统计分析得到。在测试阶段,这类方法需要逐帧进行概率或似然度计算而得出最终判决,耗费大量系统资源并降低系统的实时性。 为克服生成模型的不足,本文将不同长度的语音段表示为固定维度的高维特征向量,以此来替代原始声学特征向量,再采用子空间分析的方法对高维特征向量进行分析建模,从而得到性能更好、实时性更高的说话人确认系统。受到JFA理论的启发,本文引入经过信道补偿的JFA话者超向量作为说话人新的特征表达。虽然基于JFA话者超向量的说话人确认系统取得了较好的系统性能,但计算过程较为复杂,使得前期处理工作量较大。鉴于Fisher向量在人脸识别中的成功应用,本文尝试将提取算法更为简便的Fisher超向量作为一种新的特征表达引入说话人确认领域。 本文不仅对说话人确认中的高维特征表达进行了探索,而且还提出了对高维特征向量进行分析建模的新方法。本文采用区分子空间分析技术去除高维特征向量中的冗余信息,同时提取其中有用的区分信息。为了提取不同说话人之间的边界区分信息,提出利用非参数子空间区分分析方法训练模型,可在降低噪声干扰的同时加强区分信息,从而能够在可分性的子空间内对输入特征进行更好的建模。在测试阶段,说话人确认可以简单地通过将测试样本和目标说话人样本映射到区分性子空间,再采用有效的距离测度作为得分输出。 虽然高维特征表达有其自身的优势,但是其含有较多的冗余信息,给基于子空间的说话人建模带来了很大挑战。针对此问题,本文进一步提出了基于双层采样子空间的说话人建模方法,该方法通过在原始特征空间及PCA子空间进行采样获得多个子空间,再针对每个采样子空间训练出一个子空间分类器,从而得到多个具有一定差异性和互补性的基础分类器。考虑到子空间分类器的特点,本文提出了一种新的动态自适应多分类器融合算法,将多个基础子空间分类器的输出进行动态自适应融合,进一步提高了说话人确认系统的性能。 本文采用等错误率(Equal Error Rate,EER)和最小检测代价函数(Minimum Detection Cost Function,MinDCF)的值作为评价说话人确认系统性能的指标。采用NIST公开数据库进行的实验结果证实了本文方法的有效性。