论文部分内容阅读
说话人识别技术属于生物识别技术的范畴,是指从说话人的语音中提取特征,通过科学计算的方法来识别说话者。利用语音进行身份辨认以确认对象是否具合法进入保安、保密系统等是说话入识别的重要应用之一。通过语音输入密码的方式辨别说话人能弥补传统的按键输入密码方式的易被盗性,易遗忘性等缺点。另一方面,说话者本身的生理变动性以及说话习惯变动性,常造成识别系统性能的下降。本文在研究说话人识别系统中的各种特征参数和识别方法的基础上,着重研究了基于人耳特性的Mel倒谱系数(MFCC)、基于信号压缩方法的矢量量化(VQ)算法,并在SAMSUNG的32位微处理器S3C2410上实现基于MFCC与VQ的说话人识别系统。本文的主要工作如下:
1.介绍了语音信号的预处理,包括预滤波、预加重、分帧与加窗和端点检测。
2.介绍了人声产生的原理与数字模型,并研究了常用的语音特征线性预测倒谱系数(LPCC)和美尔倒谱系数(MFCC)的原理及提取方法,以及多层子带技术的原理和分割方法特性。
3.介绍了说话人识别的一些基本方法,着重分析了矢量量化(VQ)算法。
4.讨论了在SAMSUNG的32位微处理器S3C2410上实现了说话人识别系统的一些问题,并在该平台上实现了说话人识别系统。