论文部分内容阅读
基于语音的身份识别是指通过对说话人的语音信号的分析和特征提取,从而确定说话人是否在所记录的说话人集合中,进而确定说话人是谁的过程。随着计算机技术和信息化社会的发展,说话人识别技术越来越受到重视,它在许多领域内都有良好的应用前景。本文通过分析说话人识别基本原理与系统结构,考察现有的说话人识别技术,研究采用线性预测倒谱系数和美尔倒谱系数为特征参数,运用矢量量化的说话人识别方法,建立说话人识别系统。目前在说话人识别中,要提高识别率有两个重要问题需要解决:一是如何选取能够有效表征说话人特征的可靠参数;二是如何选取最佳的识别模型和模式分析方法,使计算简单可靠。本文对说话人识别系统的设计与实现作了初步探讨,主要做了以下工作:(1)本文在研究语音信号的一般处理方法的基础上,研究了语音信号的数字模型,包括激励模型、声管模型和辐射模型三个子模型。(2)在研究说话人识别的参数和特征提取原理的基础上,重点研究了线性预测倒谱系数(LPCC)、美尔倒谱系数(MFCC)等特征参数的原理和特点,并在计算机上提取和比较了LPCC和MFCC参数的识别效果。实验表明采用MFCC参数比采用LPCC参数有更好的识别效果。训练时间越长,两种参数的识别效果越好。(3)在介绍各种建模方法基本原理的基础上,重点研究了矢量量化器最佳码本设计的算法—LBG算法,并选择为本系统的矢量量化方法。设计了基于矢量量化的说话人识别方案,并在MATLAB上进行了仿真实验,基本实现了说话人识别。最后,对系统进行了改进,并介绍了模式分析中的一种核方法:新颖检测法,将之用于说话人识别。目前说话人识别技术在实用中遇到的最大问题在于系统的噪声的稳健性。如何在噪声环境发生变化的情况下保持系统性能不下降,将需要进一步的研究和实践。随着相关学科的发展,一些更实用、更高性能的说话人识别系统,必将出现并广泛应用在人们的现实生活中。