论文部分内容阅读
[摘要]根据不同环境下不同说话人语音特征各阶差异较大的特点,对矢量量化算法进行改进,提出一种基于动态权值改进的矢量量化(VQ)方法。实验结果证明,该方法提高说话人识别系统的识别率。
[关键词]改进的VQ算法 说话人识别
中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)0320045-01
一、引言
说话人识别系统的作用在于利用给定的一个未知语音参数据,从一组已知的说话人数据中判断出此未知语音数据的说话人身份,同时要排除冒充者的影响。当前业界较为常用的说话人识别技术有以下几种:矢量量化,隐性马尔可夫链模型,人工神经网络等。其中,基于矢量量化法的说话人识别方法,一方面用若干离散的数字值来表示各种矢量,能够大大压缩语音信息量,减少数据存储量,减小各信息量之间的关联;另一方面又可避免语音分段问题,而且无需考虑复杂的统计模型和复杂的时间归整问题,其运算过程也较为简单,因此VQ算法在说话人识别领域有着广泛的应用。本文根据说话人识别中训练语音的特点,对矢量量化的码本匹配算法进行了改进,并将改进算法与原算法识别率进行了对比研究。
二、矢量量化算法原理
矢量量化(VQ)是一种很重要的数字信号处理方法。在说话人识别中,可以把每个待识别说话人的语音看作一个信号源,用一个码本来表征,码本从该说话人的训练语音序列中提取的特征矢量聚类而成。训练就是对各个语音建立码本,要求这些码本在特征空间中相互不重叠。识别时,先从测试语音中提取一组矢量,然后用系统中建立的各个码本依次对它们进行矢量量化即判断这组矢量与特征空间中的哪一个码本的分布最为吻合。设N个码本的阶数分别为M。可以定义第i个码本的平均量化失真距离 为:
式中, 代表第i个人的特征向量,代表第i个人的码本向量。计算距离时经常采用欧氏距离或欧氏距离的平方。使平均量化失真距离最小的那个码本所对应的说话人即为识别结果。传统VQ算法的处理流程如图1所示。
图1VQ原理图
三、改进的VQ算法
当前在VQ码本构建中较为常用的参数是LPCC参数和MFCC参数,传统的VQ算法在建立码本和进行比较时不考虑LPCC参数与MFCC参数各阶所包含信息量大小不同,全部使用相同的权值来处理,会导致一组参数中某几个不利于识别的除数影响最终的识别精度。本文提出一种利用训练数据来计算权值的方法,可以有效的提高VQ算法的识别准确率。
在VQ码本建立的过程中,对不同的语音样本数据进行预处理,选取训练数据,对其进行参数提取,得到一组参数。每一个语音样本得到一组参数,共N组语音样本,我们计算这N组参数各个阶数的方差。本文构建的权值计算过程如下式所示:
其中 代表N组参数中的第i阶参数的数学期望值,其物理意义代表了第i阶参数的均值信息。 代表第j组参数的第i阶参数值。
式中,为N组参数中第i阶参数的方差,表示了这N组参数中第i阶参数偏离均值的程度,偏离越大代表着在本阶参数中各个说话人的特征区分越明显,越有利于说话人的识别。
权值 由该组归一化的方差来表示,方差大的除数权值大,方差小的除数权值小, 代表各阶参数最大的方差值。通过使用归一化权值的方法,使各个参数中特征区分明显的阶数在识别中起更大的作用,使参数中特征区分较模糊的阶数在识别中产生更小的影响。通过这样的方法可以有效的提高说话人识别的精度。
每当有新的说话人数据输入到说话人识别系统的同时,需要重新计算所有权值,保证权值的更新。
四、实验结果分析
实验时,采用普通声卡,采样频率为16KHz,PCM方式,量化精度为8bits,录音环境为普通机房。共有20个说话人(10男10女)的语音数据。语音内容为随意的文章阅读,每人共录制10个声音文件,用前8个做训练样本,后2个做测试样本。实验中分别采用16阶的LPCC特征矢量,16阶的MFCC特征矢量与16阶LPCC训练所得的LBG码本三者进行比较。在训练阶段,将分别从各个训练语音中提取的特征矢量,用VQ码本进行矢量量化,并计算其方差大小如表1所示。
通过实验得到的对比数据(VQ算法采用8次训练,2次识别)如表2所示。
改进后的VQ算法在相同训练数据的情况下,识别率明显地高于传统的LPCC、MFCC以及传统VQ算法。在实验过程中LPCC识别率明显高于MFCC识别率,通过分析,认为MFCC基于人耳听觉模型,在说话人朗读相同文本时,参数的分辨能力低于基于全极点模型,对声道系统建模的线性预测倒谱系数。由实验还知,传统VQ算法与改进后VQ算法的识别率与训练次数有关,训练次数越多,改进后VQ算法的识别率越高。
作者简介:
罗利,女,湖北省汉川市人,中国地质大学机械与电子信息学院,硕士研究生,研究方向:说话人识别;张友纯,男,湖北省武汉市人,中国地质大学机械与电子信息学院,硕士研究生导师,研究方向:说话人识别。
[关键词]改进的VQ算法 说话人识别
中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)0320045-01
一、引言
说话人识别系统的作用在于利用给定的一个未知语音参数据,从一组已知的说话人数据中判断出此未知语音数据的说话人身份,同时要排除冒充者的影响。当前业界较为常用的说话人识别技术有以下几种:矢量量化,隐性马尔可夫链模型,人工神经网络等。其中,基于矢量量化法的说话人识别方法,一方面用若干离散的数字值来表示各种矢量,能够大大压缩语音信息量,减少数据存储量,减小各信息量之间的关联;另一方面又可避免语音分段问题,而且无需考虑复杂的统计模型和复杂的时间归整问题,其运算过程也较为简单,因此VQ算法在说话人识别领域有着广泛的应用。本文根据说话人识别中训练语音的特点,对矢量量化的码本匹配算法进行了改进,并将改进算法与原算法识别率进行了对比研究。
二、矢量量化算法原理
矢量量化(VQ)是一种很重要的数字信号处理方法。在说话人识别中,可以把每个待识别说话人的语音看作一个信号源,用一个码本来表征,码本从该说话人的训练语音序列中提取的特征矢量聚类而成。训练就是对各个语音建立码本,要求这些码本在特征空间中相互不重叠。识别时,先从测试语音中提取一组矢量,然后用系统中建立的各个码本依次对它们进行矢量量化即判断这组矢量与特征空间中的哪一个码本的分布最为吻合。设N个码本的阶数分别为M。可以定义第i个码本的平均量化失真距离 为:
式中, 代表第i个人的特征向量,代表第i个人的码本向量。计算距离时经常采用欧氏距离或欧氏距离的平方。使平均量化失真距离最小的那个码本所对应的说话人即为识别结果。传统VQ算法的处理流程如图1所示。
图1VQ原理图
三、改进的VQ算法
当前在VQ码本构建中较为常用的参数是LPCC参数和MFCC参数,传统的VQ算法在建立码本和进行比较时不考虑LPCC参数与MFCC参数各阶所包含信息量大小不同,全部使用相同的权值来处理,会导致一组参数中某几个不利于识别的除数影响最终的识别精度。本文提出一种利用训练数据来计算权值的方法,可以有效的提高VQ算法的识别准确率。
在VQ码本建立的过程中,对不同的语音样本数据进行预处理,选取训练数据,对其进行参数提取,得到一组参数。每一个语音样本得到一组参数,共N组语音样本,我们计算这N组参数各个阶数的方差。本文构建的权值计算过程如下式所示:
其中 代表N组参数中的第i阶参数的数学期望值,其物理意义代表了第i阶参数的均值信息。 代表第j组参数的第i阶参数值。
式中,为N组参数中第i阶参数的方差,表示了这N组参数中第i阶参数偏离均值的程度,偏离越大代表着在本阶参数中各个说话人的特征区分越明显,越有利于说话人的识别。
权值 由该组归一化的方差来表示,方差大的除数权值大,方差小的除数权值小, 代表各阶参数最大的方差值。通过使用归一化权值的方法,使各个参数中特征区分明显的阶数在识别中起更大的作用,使参数中特征区分较模糊的阶数在识别中产生更小的影响。通过这样的方法可以有效的提高说话人识别的精度。
每当有新的说话人数据输入到说话人识别系统的同时,需要重新计算所有权值,保证权值的更新。
四、实验结果分析
实验时,采用普通声卡,采样频率为16KHz,PCM方式,量化精度为8bits,录音环境为普通机房。共有20个说话人(10男10女)的语音数据。语音内容为随意的文章阅读,每人共录制10个声音文件,用前8个做训练样本,后2个做测试样本。实验中分别采用16阶的LPCC特征矢量,16阶的MFCC特征矢量与16阶LPCC训练所得的LBG码本三者进行比较。在训练阶段,将分别从各个训练语音中提取的特征矢量,用VQ码本进行矢量量化,并计算其方差大小如表1所示。
通过实验得到的对比数据(VQ算法采用8次训练,2次识别)如表2所示。
改进后的VQ算法在相同训练数据的情况下,识别率明显地高于传统的LPCC、MFCC以及传统VQ算法。在实验过程中LPCC识别率明显高于MFCC识别率,通过分析,认为MFCC基于人耳听觉模型,在说话人朗读相同文本时,参数的分辨能力低于基于全极点模型,对声道系统建模的线性预测倒谱系数。由实验还知,传统VQ算法与改进后VQ算法的识别率与训练次数有关,训练次数越多,改进后VQ算法的识别率越高。
作者简介:
罗利,女,湖北省汉川市人,中国地质大学机械与电子信息学院,硕士研究生,研究方向:说话人识别;张友纯,男,湖北省武汉市人,中国地质大学机械与电子信息学院,硕士研究生导师,研究方向:说话人识别。