说话人识别中提高GMM性能方法的研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:ltt3221340
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
利用语音信号进行说话人身份识别,是语音研究领域的一个重要方向,具有越来越重要的社会意义和实用价值。根据说话的内容,可以分为文本相关和无关两个方面。由于文本无关具有更加灵活与适用面广的特点而成为主要研究课题。 在文本无关说话人识别中,GMM将话者识别问题转换成对话者语音数据分布的估计问题,从而将复杂的语音训练、匹配的问题分解为模型表达形式的选择、模型参数的训练,以及概率的计算等等子问题,解决了话者识别任务中的很多难题。并且由于GMM具有简单、灵活、有效的特点以及较好的鲁棒性,迅速成为当今与文本无关的说话人识别中的主流技术。近年来,在复杂背景环境下,UBM-MAP-GMM表现出更为优异的性能,特别是对失配情况有很高的鲁棒性。 然而,GMM对数据有较强的依赖性,在有限训练集下,过多的模型参数将不能保证可靠估计,这就限制了GMM模型的性能。首先,由于特征矢量维数较高,使用全矩阵形式协方差会导致参数巨大而无法可靠估计。其次,虽然使用对角形式的协方差矩阵模型参数较少,但是其隐含的前提假设是参数各维之间不相关,这种假设是不合理的。最后,由于自适应数据有限,使得目前对UBM作自适应得到目标GMM时只能自适应均值,而无法对协方差参数进行自适应。 为了进一步提高文本无关说话人识别系统的性能,本文从上述三个方面展开研究,分别提出不同的方法,在有限的训练集的条件下,提高文本无关下的GMM模型性能。 首先,针对全协方差矩阵模型参数过多,难以可靠估计的问题。本文提出了一种基于相关系数矩阵共享的协方差矩阵直接估计方法。这种方法既保证了GMM总的模型参数不致过高,可以可靠估计,又使得GMM具有显式描述特征矢量各维之间的相关性能力。 其次,虽然可以在特征空间进行线性解相关,使特征矢量各维相关性减弱,使之适合对角协方差假设。然而,由于特征矢量分布形式的复杂性,很难找到一个线性变换矩阵,为空间中所有的特征矢量解相关。因此,本文提出了一种基于模型的分类子空间解相关的方法,利用GMM对特征矢量空间分布的描述,将特征空间分解成多个子空间,在每个子空间中分别进行特征矢量的线性解相关,从而使解相关更为精细。 为了有效实现上述两种方法,本文分别提出了两种对GMM中的高斯成分进
其他文献
湖南省茶叶研究所茶树杂交育种研究始于20世纪七十年代末。1978~1987年广泛地进行了茶树亚种、变种间杂交,少量变种内品种间杂交。研究了杂交授粉技术、茶树杂交亲和性、茶树
文化自信与理想信念在思想内容、价值作用、实践基础、目标导向等方面具有高度契合性。文化自信作为文化向心力的坚定信念,支撑着人们对理想信念的坚定追求;崇高的理想信念,
郑振铎本人应该没有见过藏在德国科隆的闵寓五刻本《西厢会真图》,这从其〈西厢记的本来面目〉一文可以推断。《会真图》是明代崇祯年间饾版印刷的精品,中国版画艺术在那时已
通过工作实例分析,探讨建筑物防直击雷装置接闪器设计中安全与美观的统一性,既安全又美观。但安全与美观不能兼顾时,优先考虑安全。
<正>~~
期刊
对黑河金盆水库水温、溶解氧、pH和底部水质的监测分析结果表明,黑河金盆水库属于稳定的大水深分层型水库,水体分层阻碍了上下层水体之间的物质交换,在水体和底泥耗氧的双重
营改增对小微企业税收征缴的影响 (1)营改增对小微企业税费负担的影响 在新的《降低实体经济企业成本工作方案》(国发(2016)48号)文件中提到全面实行营改增之后,小微企业的税
期刊
在当今社会,人力资源是一种非常重要的资源,其最大的特点就是具有高增值性和难以替代性,人力资源管理历来是企业管理中的重中之重,人力资源管理得好,可以转化为其它多种资源
期刊
在对大气污染突发事故的诱因耦合与演化机制缺乏科学认识的情况下,无法对事故的传导和变异过程进行识别,就难以对事故采取有效的应急处理处置措施,因此对大气污染突发事故诱