论文部分内容阅读
随着社会信息化程度的发展,越来越多的场合需要对人的身份进行可靠地识别,传统的以密码方式进行身份认证的技术日益暴露出很多弊端。为确保信息安全,用人特有的生物特征作为认证手段的技术逐渐发展起来。说话人识别属于生物认证技术的一种,是一项根据语音波形反映的说话人生理和行为特征的语音参数,自动鉴别说话人身份的技术。说话人识别技术以其独特的方便性、经济性等优势受到世人瞩目,并日益成为人们日常生活和工作中重要且普及的安全验证方式。
本文的研究对象是与文本无关的说话人识别系统。首先,详细讨论了说话人识别系统的基本原理,接着介绍了语音信号产生的数学模型、语音信号的加窗、分帧、预加重滤波、端点检测;重点讨论了传统的双门限端点检测算法,并给出了传统双门限端点检测算法的程序。重点分析了当前最常用的三种语音特征参数:线形预测系数、线形预测倒谱系数和Mel频率倒谱系数,并提取了这三种系数。
其次,着重讨论了说话人识别常用的方法:基于矢量量化的说话人识别方法。详细讨论了VQ的基本原理、失真测度、最佳码本设计以及介绍了基于FVQ的说话人识别方法,实验结果表明基于FVQ的识别率较基于VQ的识别率要好。
再次,编写了以△MFCC+MFCC为参数、基于矢量量化的说话人识别系统的训练和测试程序。对于VQ模型,码本数的选取对识别率有很大的影响,实验证明选取128时最合适。
最后对本文的工作进行了总结,同时对未来的研究工作进行了展望。
本文的研究对象是与文本无关的说话人识别系统。首先,详细讨论了说话人识别系统的基本原理,接着介绍了语音信号产生的数学模型、语音信号的加窗、分帧、预加重滤波、端点检测;重点讨论了传统的双门限端点检测算法,并给出了传统双门限端点检测算法的程序。重点分析了当前最常用的三种语音特征参数:线形预测系数、线形预测倒谱系数和Mel频率倒谱系数,并提取了这三种系数。
其次,着重讨论了说话人识别常用的方法:基于矢量量化的说话人识别方法。详细讨论了VQ的基本原理、失真测度、最佳码本设计以及介绍了基于FVQ的说话人识别方法,实验结果表明基于FVQ的识别率较基于VQ的识别率要好。
再次,编写了以△MFCC+MFCC为参数、基于矢量量化的说话人识别系统的训练和测试程序。对于VQ模型,码本数的选取对识别率有很大的影响,实验证明选取128时最合适。
最后对本文的工作进行了总结,同时对未来的研究工作进行了展望。