基于SVM和GMM的说话人辨识方法研究

被引量 : 7次 | 上传用户:wangming2106
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别是根据语音波形中反映说话人生理和行为特征的语音参数,自动识别出相应说话人的过程。它是语音信号处理的一个重要研究方向,作为一种生物认证技术,具有广泛的应用前景,促使越来越多的人对其进行研究。目前,基于闭集的说话人识别已经取得了比较好的进展,但是基于开集的说话人识别的识别性能还有待提高。开集和闭集是对测试说话人集的一种划分,当测试的说话人集合仅局限在训练集内时,称其为基于闭集的说话人识别;当测试的说话人集合没有训练集限制,任何话者,不论训练与否,均能作为测试集合中的一员,则称其为基于开集的说话人识别。基于开集的说话人识别,不同于闭集说话人识别的关键是开集说话人识别不仅要对测试话者是否是训练集内的话者进行判断,而且若是训练集内的话者,则还要对其进行识别,识别出其是集内的哪个话者。本文致力于对基于开集说话人识别的研究,提出了一种新的识别方法,即基于SVM和GMM的说话人辨识方法。说话人辨识是指对说话人进行分辨和识别,分辨测试话者是否是训练集内话者,若是训练集内话者则还要识别出其是训练集内的哪位话者。用到的模型是SVM-GMM模型,该模型是结合了支持向量机(SVM)和高斯混合(GMM)两种模型。支持向量机模型是以统计学习理论中VC维理论和结构风险最小原理为基础,根据有限的样本信息在模型的复杂性与学习能力之间寻求最佳折中,获得了较好的推广能力。大量的实验已经证实支持向量机有着优秀的分类能力,基于此,本研究将其选为第一步粗分类模型。而高斯混合模型是用多个高斯分布的线性组合,拟合说话人的特征分布。它能很好的描述说话人语音特征的内部的相似性。前人的研究也表明该模型是在说话人确认系统表现出良好的性能。故本研究选用高斯混合模型作为第二步精细的确认模型。在识别阶段,首先用支持向量机模型对测试的话者进行粗分类,然后再用高斯混合模型对分类结果进行确认,判断测试话者是否就是其在粗分类中所分到的类别。若是,则表明该测试话者就是其所分到类别所对应的话者;若否,则表明该测试话者是训练集外话者。本研究就是通过这种方法来实现对说话人进行分辨的。实验表明,本研究所提出的方法是有效的,能有效的提高对集外话者的分辨率。
其他文献
<正>4月12目,趁沃尔玛华东配送中心装货的空隙,浙江宇石国际物流有限公司(以下简称宇石物流)的集装箱牵引车头先从嘉兴桐乡将巨石集团的工业品挂车送到了乍浦,放下挂车,把其
语言在人类交流中具有至关重要的作用,但长久以来一直把语言局限在小语言的范畴内,而忽略了大语言。本文想通过对大语言环境下的人类交流进行分析,使人们对大语言有一个正确
潘建伟的新著《中国现代旧体译诗研究》由上海三联书店于2016年12月出版。该书以新文化运动作为一个历史分界点,提出由于文献疏于整理、批评单薄贫乏等原因,中国现代的旧体译诗
<正> 在医学科学研究中,算术平均数(就是通常所说的平均数)是较为普遍的用以反映一群性质相同数值集中趋势的指标;标准差是度量一群性质相同数值离散程度(变动范围大小)的指
随着资本市场的发展,在企业发展多元化战略,产生了火热的“并购浪潮”的同时,收缩型的资本运营方式——资产剥离也在逐年增多。资产剥离在发达的西方国家资本市场中早已被频
张爱玲被人称为"奇装炫人",她自称为"衣服狂",由此可见,她对服饰的狂热。不仅如此,她还将生活与服饰有机结合在一起,这一点不仅凸显在她自己身上,还充分体现在她的小说里。为
文章以单片机家庭火灾报警系统的设计原理及方案的比较分析展开研究,结合控制芯片、传感器、A/D模块、显示模块等硬件的选取及方案进行对比,充分别考虑其优缺点、性价比等方
<正>南京作为省会城市,具有典型的大都市和大农村的特点,镇村基础设施、基本公共服务以及农民收入水平均与城区差距明显——南京城乡二元结构突出。因而把重视美丽生态乡村建
为保持企业的核心竞争力,自主创新是第一生产力。创新的能力与研发投入息息相关,研究与开发支出的合理配置是一项重要的经营管理决策,它关系到有效保持企业长期、持续的竞争