基于VQ和GMM的与文本无关的说话人识别研究

被引量 : 0次 | 上传用户:fengniao1625
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别作为生物认证技术的一种,是根据应用语音波形中反映说话人生理和行为的语音特征参数,自动鉴别说话人身份的一种技术。与其它生物识别技术相比,说话人识别具有更为简便,经济及可扩展性良好等众多优势,可广泛应用于电话银行、数据库访问、计算机远程登录、安全验证、控制等领域。正因为说话人识别具有如此广阔的应用前景,近年来在生物认证技术领域中越来越受到研究者的关注。本文首先介绍了说话人识别系统的概念,然后分析了几种常用的语音特征参数的提取方法以及说话人识别的几种模型。重点研究了矢量量化模型(VQ)和高斯混合模型(GMM)用于与文本无关的说话人识别,在基于S3C2410的ARM嵌入式系统开发板上实现了初步的说话人识别系统;实验中分别选取不同的模型训练时间和测试时间以及使用VQ模型时选取不同的码本数和使用GMM模型时选取不同的高斯混合数对NTT语音数据库中的20个说话人做了实验。对于VQ模型,码本数的选取对识别率有很大的影响,当码本数太小时,识别率下降很多,但超过128时识别率也开始下降,并且识别时间成倍的增加,所以考虑到系统的性能选码本数为128时有较好的效果。理论上,码本数选取太小使特征空间量化太粗糙会增加错误接受率,而码本数选取太大使特征空间量化太细会增加错误拒绝率,这两方面都会引起整体识别率的下降,和实验结果相符合。对于GMM模型,采用高斯混合数为64时有较好的识别率。当GMM混合数太低时识别率也很低,这是由于太少的高斯分量的叠加不足以逼近识别对象特征空间的原因;但GMM混合数选取太高时,识别率没有进一步的提高,识别时间却增加很多。实验表明,训练和测试时间的不同,也对识别率有很大的影响,时间越长识别率越高,但当训练时间超过30秒测试时间超过1.5秒时,识别率没有进一步的提高;在训练时间为30秒测试时间1.5秒的时候采用VQ模型可以达到92.0%的正确识别率,而采用GMM模型可以达到96.0%的正确识别率。随着当今嵌入式技术的快速发展,本文的研究成果完全可以应用到需要语音验证说话人的大多数场合,比如手机、PDA、语音考勤、楼宇门禁系统等。
其他文献
国际贸易作为技术溢出的主要渠道,近年来受到了理论界的普遍关注。大量研究如何确定与衡量国际贸易带来的技术溢出问题的文献取得了丰富的理论成果并应用于实践。发展中国家
<正>现代医学在近20年对于高血压病的治疗有很大进展,降压药物的研制日新月异,但我们亦看到在全世界或在我国,高血压病的发病率仍在不断上升,血压控制率仍很低,每年因高血压
涪陵区旅游业的发展是本地区经济发展的支柱产业,旅游业的发展带动当地经济的发展,是促进GDP的稳步发展重要领头行业。本文通过涪陵区旅游资源与GDP的相关性分析,建立旅游资
中间继电器一种用来增加控制电路中的信号数量或将信号放大的控制类低压继电器。其输入信号是线圈的通电和断电,输出的信号是触点的动作。中间继电器的触点对数多,容量较大,通常
本文通过室内试验、现场试验、离心模型试验以及三维数值模拟等手段对稳定计算中土体强度指标、边坡变形破坏发生机制及抗滑桩与土体相互作用进行了研究。具体研究成果如下:(1)
由于外部环境恶化,企业面临的市场竞争日趋激烈,而我国多数企业的竞争力主要还是依靠生产要素的低成本优势,但现如今随着地租和工资的持续上涨,中国商品的价格优势正在不断消
<正>小儿急腹症是临床常见多发病,多以急性腹痛就诊,因患儿年龄小,未能准确表达腹痛部位及腹痛性质,加之小儿病情变化迅速,因而快速作出正确诊断对临床采取及时有效治疗措施
本文对73例半月板全切除术患者的远期疗效及其影响因素进行随访观察,随诊时间10~34年,平均19.4年,主观满意者54.8%.结合物理检查和X线检查综合评定结果满意者52.1%。统计学分析
农产品贸易对农业经济增长有贡献,并对经济和社会效益、资源环境均有影响。推动农产品贸易增长进入中高级阶段,必须优化贸易结构、内部激励与外部保障结合。