说话人声纹识别的算法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:cjz1107
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人声纹识别是以声音作为识别特征的一种身份认证手段,为加快说话人识别在实际商业中的应用,对其技术的研究与实现具有极其深远的意义。与文本无关的说话人确认是说话人识别的研究方向之一。主流算法是基于概率统计模型,在语料充分情况下GMM-UBM(Gaussian Mixture Model-Universal Background Model)模型获得了 较好的性能,但在噪声情况和信道失配下,识别性能难以进一步提升。为此提出了总变化因子(i-vector)分析技术,将长短不一的语音映射到低维矢量,在低维矢量中解决信道问题。LDA(Linear Discriminant Analysis)和 PLDA(Probabilistic Linear Discriminant Analysis)是常用的信道补偿技术,不过后者常被用来作为打分工具。本文以GMM-UBM模型为基础研究框架,并进一步研究了基于I-vector和PLDA模型的说话人确认系统。本文主要研究内容如下:(1)针对说话人识别在云平台中的应用,提出了基于云平台的说话人识别系统框架。分析了语音预处理过程和基于人耳听觉感知的梅尔倒谱系数MFCC的特征提取流程。(2)构建了基于GMM-UBM模型的说话人识别系统。详细介绍了 UBM模型的训练过程和MAP自适应匹配过程。设置实验数据库,探究了 UBM训练说话人个数、模型高斯元件数、训练语音长度、测试语音长度、MFCC特征维数等因素对系统性能的影响。(3)构建了基于I-vector和PLDA模型的说话人确认系统,对I-vector提取算法和PLDA模型进行了分析。实验对比不同系统的性能,并探究了 norm变换、I-vector特征维度、PLDA因子维度等因素对系统性能的影响。(4)结合LDA和WCCN规整技术对I-vector进行信道补偿和降维,并深入分析了该技术对实验结果的影响。针对LDA分类性能不显著问题,提出改进的分类算法,并进行实验验证。
其他文献
为了探索病理学实习课的教学方法,在2001级临床医学系本科中随机抽取了2个班分为对照班和实验班。对照班采用常规教学法教学;实验班则加用病例分析教学法。实验班和对照班期
红军长征过广西突破湘江是一场异常惨烈的战役。八十年后深情纪念,缅怀先烈,让历史告诉今天和未来,同时引发思考,如何弘扬红军长征精神?高校有"科学研究"与"文化传承"的使命,
自2006年起,我院门诊输液大厅设计了不同颜色的卡片和圆形粘贴纸以提醒护士巡视的内容及重点,并取得良好效果,现介绍如下:
<正>我又见着我的老师了,如朝山进香的人见到他自幼就心存感念的一位应愿之神。在今年正月的阳光里,也在正月的冬寒中,我回家奔赴我三叔的喜丧事,也去赴办我大伯逝世三周年的
<正>地缘政治一直是政治学领域的重要概念,也是理解现实世界政治秩序的视角之一。新世纪以来,面对世界政治日益多极化的发展态势,在冷战时期完善起来的西方地缘政治理论能否
受内、外动力地质作用及人为因素的影响,我省成为地质灾害的多发区,严重制约着我省经济的发展,威胁着人民的生命财产安全。如何将地质工作有效的服务于社会,促进地质环境与经济建
<正>城市经济是否发达,很大程度上体现在城区经济的发展水平。加快城区经济发展成为当前乃至今后一段时期桂林市委与政府的中心工作。为破解桂林城区发展空间受限、产业趋同
本文介绍环氧乙烷经开环聚合得分子量为264左右的聚乙二醇,即PEG264,再与油酸酯化,生成PEG264油酸酯的合成过程,并对合成的工艺条件进行了探讨.
随着"一带一路"战略的具体实施,中国资本、技术"走出去"的力度进一步加大,海外直接投资将是输出资本、输出技术、获取资源最为有效的方式之一。然而,海外投资项目多具有期限
目前,教师职业倦怠问题已经成为困扰我国教育事业发展的一个重要的问题。文章分析了教师职业倦怠产生的原因、表现及其危害,进而从提高教师职业道德素养角度,提出克服教师的