论文部分内容阅读
说话人识别作为生物认证技术的一种,是根据应用语音波形中反映说话人生理和行为的语音特征参数,自动鉴别说话人身份的一种技术。与其它生物识别技术相比,说话人识别具有更为简便,经济及可扩展性良好等众多优势,可广泛应用于电话银行、数据库访问、计算机远程登录、安全验证、控制等领域。正因为说话人识别具有如此广阔的应用前景,近年来在生物认证技术领域中越来越受到研究者的关注。本文首先介绍了说话人识别系统的概念,然后分析了几种常用的语音特征参数的提取方法以及说话人识别的几种模型。重点研究了矢量量化模型(VQ)和高斯混合模型(GMM)用于与文本无关的说话人识别,在基于S3C2410的ARM嵌入式系统开发板上实现了初步的说话人识别系统;实验中分别选取不同的模型训练时间和测试时间以及使用VQ模型时选取不同的码本数和使用GMM模型时选取不同的高斯混合数对NTT语音数据库中的20个说话人做了实验。对于VQ模型,码本数的选取对识别率有很大的影响,当码本数太小时,识别率下降很多,但超过128时识别率也开始下降,并且识别时间成倍的增加,所以考虑到系统的性能选码本数为128时有较好的效果。理论上,码本数选取太小使特征空间量化太粗糙会增加错误接受率,而码本数选取太大使特征空间量化太细会增加错误拒绝率,这两方面都会引起整体识别率的下降,和实验结果相符合。对于GMM模型,采用高斯混合数为64时有较好的识别率。当GMM混合数太低时识别率也很低,这是由于太少的高斯分量的叠加不足以逼近识别对象特征空间的原因;但GMM混合数选取太高时,识别率没有进一步的提高,识别时间却增加很多。实验表明,训练和测试时间的不同,也对识别率有很大的影响,时间越长识别率越高,但当训练时间超过30秒测试时间超过1.5秒时,识别率没有进一步的提高;在训练时间为30秒测试时间1.5秒的时候采用VQ模型可以达到92.0%的正确识别率,而采用GMM模型可以达到96.0%的正确识别率。随着当今嵌入式技术的快速发展,本文的研究成果完全可以应用到需要语音验证说话人的大多数场合,比如手机、PDA、语音考勤、楼宇门禁系统等。