论文部分内容阅读
说话人识别技术作为生物认证技术的一种,是根据语音波形中反映说话人生理和行为特征的语音参数自动鉴别说话人身份的一项技术。说话人识别技术以其独特的方便性、经济性和准确性等优势受到世人瞩目,并日益成为人们日常生活和工作中重要且普及的安全验证方式。因此,研究一种识别率高、鲁棒性强的说话人识别方法是国内外众多研究者努力的目标。本文的说话人识别系统,采用了矢量量化和遗传算法相结合的方法,利用美尔倒谱系数及其扩展参数,选用欧式距离进行识别。在特征提取中常用ΔMFCC来分析各维参数的变化量,用ΔΔMFCC来表达各维参数变化的加速度,论文引入一阶美尔倒谱系数的平方和及其差分,表示多维倒谱参数在某一帧的总的变化量,按照这个思路,又添加了2维新的特征参数,一个是二阶美尔倒谱系数的平方和,一个是平方和的差分。通过实验证实,引入的新的特征参数对识别率有所提高。采用矢量量化与遗传算法相结合的方法,避免了经典的LBG算法极易陷入局部最优解的可能性,弥补了初始码本的选择对码本结果的影响的缺陷。为了防止遗传算法也陷入局部最优解的可能,采取加大迭代代数、使用了选择部分最优个体,尝试用判断群体中个体的相似度来改变变异率的方法,从一定程度上防止了所得的结果是局部最优解。通过实验可以得知,采用遗传算法后,相比采用LBG算法,识别效果有所提高。而且,随着训练语音长度的增加,识别效果越好。通过实验发现,识别效果并不是一直随着码本中心个数的增加而增加,而是达到一定数目之后,识别效果开始变差。