论文部分内容阅读
语音识别在访问控制的应用就是要让计算机听懂人的说话声音,并确定说话人的真实身份。说话人识别属于生物特征识别技术的一种,是一项根据语音波形中反映说话人生理和行为特征的语音参数来自动识别人身份的技术。与目前识别语音内容不同的是,说话人识别利用的是语音信息中说话人信息,而不考虑语音中词语的意思,它强调说话人的个性;而语音内容识别的目的是识别出语音信号中言语的内容,并不是考虑说话人是谁,它强调的是共性。说话人识别技术的崛起得益于信息检测与处理、人工智能、模式识别、机器学习等技术与理论的发展,这是一个涉及生理学、语音学、心理学、声学等多学科的研究领域。说话人识别技术是计算机技术重要的发展方向,说话人识别理论研究逐渐深入和完整,基于PC平台的说话人识别系统的研究也在技术上获得了一些成功,尽管目前说话人识别的研究已经进入了商品化阶段,基础性理论比较完善,各种各样的产品也相继涌现,但把说话人识别技术与网络开发,数据库使用技术三者相结合的产品还没有。分布式声纹打卡系统将填补这一空白,它将首次在说话人识别产品引入网络和数据库开发技术,形成一套比较有特色的产品。本文首先介绍了说话人识别技术概述和国内外发展状况,在此基础上阐明了本课题的研究背景和应用前景,分析了说话人识别过程中面临的困难。其次,根据说话人识别系统的基本构成模型,介绍了预处理、端点检测和特征提取,包括线性预测技术和美尔倒谱技术,然后介绍了说话人模板生成及模板管理和模板匹配各部分所涉及到的语音数字信号处理、模式识别等方面的基本原理,介绍了在实现说话人识别系统的几种途径。接着,本文介绍了使用Matlab程序实现MFCC(美尔倒谱)和VQ(矢量量化)模型的算法,并在Windows操作系统上用.Net,C#实现的一个与文本无关的分布式声纹打卡系统,分析了矢量量化的识别率和出错原因,运用目前比较流行的编程技术和数据库技术完成了一个说话人识别产品。由于(VQ)矢量量化模型只适合于小规模人群的说话人识别,在识别人数增长的情况下识别率会降低,所以本文介绍了另外一种说话人识别模型-GMM(高斯混合模型),这是一种基于概率统计的模型,这种模型在识别人数增长的情况下,识别率依旧比较稳定。出于系统未来改进的考虑,本文还介绍了隐马尔科夫模型,这也是一种基于概率的统计模型,但这种模型不是用来识别说话人是谁,而是用来识别说话的内容,对以后系统的改进有很大的帮助。最后对本课题进行了小结,指出了该说话人识别的改进方向。本文通过对实际说话人识别系统的测试和研究,为进一步开发实用性语音识别系统的工作做了基础和探索性的工作。