论文部分内容阅读
说话人声纹识别是以声音作为识别特征的一种身份认证手段,为加快说话人识别在实际商业中的应用,对其技术的研究与实现具有极其深远的意义。与文本无关的说话人确认是说话人识别的研究方向之一。主流算法是基于概率统计模型,在语料充分情况下GMM-UBM(Gaussian Mixture Model-Universal Background Model)模型获得了 较好的性能,但在噪声情况和信道失配下,识别性能难以进一步提升。为此提出了总变化因子(i-vector)分析技术,将长短不一的语音映射到低维矢量,在低维矢量中解决信道问题。LDA(Linear Discriminant Analysis)和 PLDA(Probabilistic Linear Discriminant Analysis)是常用的信道补偿技术,不过后者常被用来作为打分工具。本文以GMM-UBM模型为基础研究框架,并进一步研究了基于I-vector和PLDA模型的说话人确认系统。本文主要研究内容如下:(1)针对说话人识别在云平台中的应用,提出了基于云平台的说话人识别系统框架。分析了语音预处理过程和基于人耳听觉感知的梅尔倒谱系数MFCC的特征提取流程。(2)构建了基于GMM-UBM模型的说话人识别系统。详细介绍了 UBM模型的训练过程和MAP自适应匹配过程。设置实验数据库,探究了 UBM训练说话人个数、模型高斯元件数、训练语音长度、测试语音长度、MFCC特征维数等因素对系统性能的影响。(3)构建了基于I-vector和PLDA模型的说话人确认系统,对I-vector提取算法和PLDA模型进行了分析。实验对比不同系统的性能,并探究了 norm变换、I-vector特征维度、PLDA因子维度等因素对系统性能的影响。(4)结合LDA和WCCN规整技术对I-vector进行信道补偿和降维,并深入分析了该技术对实验结果的影响。针对LDA分类性能不显著问题,提出改进的分类算法,并进行实验验证。