论文部分内容阅读
在信息化飞速发展的今天,一系列语音处理技术及其应用已成为信息化社会不可或缺的重要组成部分。说话人识别即声纹识别,是语音处理技术中一个重要的研究领域,它类似于指纹识别、虹膜识别等,同属于生物识别,具有无需记忆、不被遗忘、使用方便等优点。被广泛应用于司法鉴定、医学、通讯等领域,是一种最自然的身份鉴定及生物特征识别方式。说话人识别不注重语音信号中的文字符号与语义信息,注重提取出包含在语音信号中的个人特征信息,达到判断说话人是谁的目的。特征提取算法研究的主要任务是选取和研究能表现信号类别的、有效的、稳定可靠的特征矢量,但是到目前为止还没有一种简单可行的方法能够把说话人的个性特征从语音信号中完全分离出来。为了提取到能够区分不同说话人个性特征的最优特征参数,解决噪音环境下识别率低等问题,本文主要研究说话人识别中特征参数及其改进参数的提取算法。首先本文将说话人识别中梅尔频率倒谱系数、线性预测系数和两者混合的线性预测梅尔倒谱系数三种基本特征参数分别应用于已搭建好的说话人识别平台。文中说话人识别的模型是与文本无关的孤立词语音识别中常用的隐马尔科夫模型。本文将三种特征参数分别在四种不同信噪比(分别为15dB、10dB、5dB、0dB)以及无噪音的环境下进行说话人识别的研究,以此为基础,加入包含说话人个性特征的归一化短时能量参数作为其辅助参数,完成实验的结果与分析。分析实验结果发现识别率并不高,在信噪比低的情况下识别率明显降低。为了提取出不同说话人之间鲁棒性优、区分度好的特征参数,本文提出两种改进的特征提取算法:基于梅尔倒谱复合参数及相关距离Fisher比的参数提取与基于分布式离散余弦变换与相关距离Fisher比的参数提取。两种方法都以MFCC特征提取算法为基础进行优化与改进。前者增加了归一化短时能量参数和一阶差分参数,构成的特征矢量作为新的复合特征,称之为梅尔倒谱复合参数。并且针对高维特征参数,提出了一种基于相关距离Fisher准则的特征选取方法,利用该方法对提取出的参数进行加权降维。后者首先针对MFCC提取算法中的离散余弦变换进行分布式改进算法,其次采用上述验证后的相关距离Fisher准则的加权算法,减少其语义信息的样本个数,增强其参数在低信噪比下的鲁棒性。实验结果表明,上述两种改进算法均可明显提高说话人识别系统的鲁棒性与识别率,使本课题的研究在说话人识别中具有一定的实际意义。