基于多特征I-Vector的短语音说话人识别方法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:jimmil
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,说话人识别作为人机交互领域的一个主要研究方向之一,已经在现实生活中得到了广泛的应用。然而在实际应用中,能够提取到的说话人语音较短,导致系统识别效果较差。因此,本文研究的主要内容为短语音说话人识别系统。首先,本文概述了说话人识别系统的总体框架,并分别描述了各模块的性能以及处理过程,明确地把特征提取和匹配模型部分作为本文的主要研究方向。其次,在说话人特征提取部分,针对短语音条件下,单一特征的MFCC特征参数无法充分表征说话人特性的问题,利用不同特征可以从不同的角度对说话人特征分布进行描述的优点,确定了3种常用特征参数作为说话人特征,分别是:MFCC、GFCC和LPCC。考虑到直接拼接的特征无法获得很好的识别性能,提出了基于Fisher比的MFCC、GFCC和LPCC的多特征融合算法,并把新特征命名为LP_MGFCC。该种算法有效地利用了不同特征分量在识别系统中的贡献率不同的特点,通过选取系统贡献率较高的特征分量,进而提升了系统的识别效果。接着,由于融合的LP_MGFCC特征分量之间存在一定的相关和冗余信息,为了进一步提升短语音说话人识别性能,提出了基于PCA和LDA的LP_MGFCC特征补偿算法,得到了正交且说话人区分性较强的特征,同时,小了计算复杂度。再者,匹配模型的选择对短语音说话人识别系统的性能也会产生影响。本文对GMM-UBM模型进行深入研究,并通过实验确定了模型的混合度为1024时,系统的性能最优。同时,介绍了目前主流的I-Vector模型,并分析了I-Vector模型相比于GMM-UBM模型的优势,并在本文测试语音较短的情况下,对两种模型进行了实验对比,结果表明I-Vector模型相比于GMM-UBM模型具有更好的识别性能。最后,本文对基于多特征I-Vector的短语音说话人识别系统进行了仿真实验。在测试语音为8s时,验证了不同特征在基线I-Vector说话人识别系统中的性能,结果表明本文提出的多特征算法具有更好的识别性能。同时,在不同的测试短语音下,验证了本文提出算法的EER相对于基线系统的EER有约50%的提升,且本文提出算法的minDCF相对于基线系统的minDCF也有约50%的提升。
其他文献
推导出了N维(N≥2)各向同性谐振子径向矩阵元的通项表达式,所得结果包含了以前人们给出的N=2、3时的结果。
铁电陶瓷是一种非常重要的功能材料,广泛应用于人类生活和生产的各个方面,如国防军事、航空航天、电子通信、医学领域、工业领域、日常家电等。本文采用传统固态反应烧结法分别成功制备了LiNbO3和(BaTiO3)0.5-(BiMg0.5Ti0.5O3)0.5(简写为BT-BMT)掺杂的位于钛酸铋钠-钛酸钡(BNT-BT)基准同型相界附近的(1-x)(Bi0.44Na0.44Ba0.12TiO3)-x(Li
近代鸦片战争后,西方列强的入侵打开了封闭的旧中国的大门,并在中国获取了传教和办学的特权,传教士开始在我国创办教会女校,随着教会女校规模的扩大和本土女校的发展,致使教会女子大学应运而生,这对于女性乃至全社会的发展都有着非凡的意义。早期的金陵女子大学和华南女子大学由西方传教士掌控,旨在为基督教服务,带有文化侵略的性质。1925年,五卅运动后,收回教育主权的呼声越来越高。1928年,应国民政府和爱国人士
土地储备制度是政府以土地所有者的身份直接参与土地市场,影响土地供求关系,防止土地市场过度投机引发泡沫经济的重要举措.它通过收回、收购、置换、征用等方式,建立国有土地
随着“分离式生产”为特征的生产模式无法为出口企业带来竞争优势,在时代洪流的冲击之下,中国制造业出口企业又该如何应对?知识密集型服务业(Knowledge Intensive Business Service,简称KIBS)作为知识经济中知识的创造者和传播者,对制造业企业的创新起着极大的推进作用,面临美国对华关税加征措施愈加频发的背景下,知识密集型服务业(KIBS)是否能成为出口企业竞争力提升的助推
“三台阶七步开挖法”是在对“新奥法”的认识和探索过程中,为解决软弱围岩的稳定与工期矛盾开发出的一种新的施工方法。结合施工实际,主要介绍”三台阶七步开挖法”的概念和优