论文部分内容阅读
1.说话人识别概述
说话人识别是指对一段语音进行处理,确定该段语音是谁所说,或者是否是某个人所说。根据识别系统的职能。由于在安全访问控制,身份自动鉴别相关领域的现实意义以及现代设施的硬件支持,近年来说话人识别系统得到了社会以及各种企业的大量关注和研究,近年来,随着Internet和计算机通信行业的迅猛发展,说话人确认系统正广泛应用到Internet的访问控制,计算机认证和无线电话认证等领域。
通过组合MFCC和基音周期特征参数的方法,来提高系统的识别率,但是组合的特征参数缺少动态特性,在噪声等外界干扰下,系统的识别率容易受到影响[1]。文献2通过提取MFCC特征参数然后对其进行加权,能够提高系统识别率,但是仍然没有使用动态特性,缺乏抗干扰性。文献3提出了一种基于MFCC系数分析和仿生模式识别的语音识别方法,该方法旨在减少计算量并且提高识别率。虽然取得了一定的效果,但是仿生模式的识别方法仅适用于小词汇量的语音识别中。
本文通过提取MFCC的一阶差分特征参数,并且与原参数进行组合,提高了特征参数的动态特性,使参数有更好的鲁棒性和更强的抗噪能力,然后对参数加权可以使识别率得到进一步提高,最后采用矢量量化识别,该方法既减少了计算量,并且适用于更广泛的语音识别中。
2、系统描述
本文说话人识别系统在对原始语音提取MFCC参数、MFCC一阶差分参数并且对其进行矢量加权。说话人识别系统的框架,包括语音输入、特征参数提取、模型建立以及相似度比较。说话人识别系统分为两个部分:训练部分和识别部分。现阶段主要研究的是特征提取部分、说话人识别模型建立部分。
2.1改进的MFCC特征参数
本文改进的MFCC参数的提取和计算过程如下,因为标准MFCC参数只反映语音参数的静态特性,MFCC的差分参数反映的是动态特性,而人耳对语音的动态特性更加敏感,本文在MFCC的基础上在最后计算一阶差分倒谱系数反映语音动态的变化,然后与原有MFCC参数进行组合,得到新的24维的组合特征参数。
2.2 VQ识别过程
矢量量化(Vector Quantization,VQ)具有良好的分类特性,能够通过对长时语音特征参数统计信息的量化来区分不同的说话人,并且可以减少数据量,使用该方法建立识别模型,能有效减少数据存储量和计算量。
VQ的关键是设计一个矢量化分类器来对输入的信息进行分类。在训练阶段,采用LBG算法,由说话人语音的训练样本序列,前面所述的12维MFCC参数和12维一阶差分参数作为特征矢量,聚类生成不同码字组成的码书,每个说话人都对应一个码书,每个码书具有M个码字。这些码书在特征空间的分布相互不重叠或者重叠但是有较好的区分度。
2.3特征参数加权
由于用矢量量化的方法仅仅得到说话人语音特征在特征空间的聚类中心,而忽略了特征参数矢量每一维分量对识别的贡献大小,也就是说只描述了特征空间的形状,而没有顾忌具体参数分量对不同说话人的区分程度,因此这种模拟比较粗糙。通过对参数的加权,可以增强说话人的区分程度,减少这种粗糙程度,因此本文对前文提取出的各特征参数矢量进行加权处理,改进的方法如下:令,其中a(t)表示第t维分量的加权系数,P是特征矢量的维数。
3、实验结果
实验中采取录音的方式来获得声音文件,总共有15个不同人声音的wav文件,录音采用12.5k采用率,16bit采样精度,在普通实验室环境下进行,录音人员随便读任何文字,每个人读不同的文字两遍,一次用来作为训练数据,一次用来作为测试数据。在参数提取时取帧长为256个采样点,帧移是100个采样点,提取12阶MFCC和12阶一阶差分MFCC结合作为特征矢量,用LBG算法训练码书。识别采用相同算法生成特征矢量,然后计算与码本之间的距离,根据改进公式作为距离测度。
实验结果中采用MFCC特征参数,码书大小为16时,识别率为66.71%,而采用加权MFCC时识别率稍有提升。当码书大小升为64时,识别率达到87.32%。本文所改进的加权MFCC与一阶差分MFCC参数的结合识别率达到了94.53%。
实验结果表明,Mel频率倒谱系数(MFCC)能很好的反应说话人的个体特征,在不同码书大小的环境下,对不同的参数进行加权以后提高了一些识别率,MFCC与一阶差分MFCC参数(MFCC)的结合比单一MFCC特征参数识别率高出很多,尤其是在码书比较小得时候提升效果更佳明显。该系统VQ矢量技术的使用,有效减少了整个说话人识别系统在训练跟识别时的计算量。
4、总结
本文在MFCC基础上,提取了一阶差分MFCC,并将他们进行组合,有效的利用了静态与动态的参数特征,然后通过加权的方法,提高识别效果。实验证明矢量量化识别的方法能有效的减少该方法在识别过程中的计算量并且能保证足够的识别精度。最后对不同特征参数在不同码书的矢量识别下进行对比,证明了动静态组合的特征参数优于单一的特征参数,加权处理的方法能够进一步提高系统的识别率。
参考文献
[1]孙水发,朱建伟,刘晓丽。基于MFCC等组合特征的说话人识别模型[J]。三峡大学学报(自然科学版),2009,12(31)No.6.
[2]邵央,刘丙哲,李宗葛。基于MFCC和加权矢量量化的说话人识别系统。计算机工程与应用,2002,05:128.
[3]王宪保,陈勇,汤丽平。结合MFCC分析和仿生模式识别的语音识别研究。计算机工程与应用,2011,47(12).
[4]蔡莲红,黄德智,蔡锐。现代语音技术基础与应用[M].北京:清华大学出版社,2003
[5]赵力。语音信号处理[M].北京:机械工业出版社,2003.
[6]周明义,周昆湘,余伶俐。一种基于VQ的说话人确认的阈值设计方法[J].计算机工程与应用,2007,43(13):117-119.
[7]Sridevi V.Sarma.A Segment-based Speaker Verification System Using SUMMIT,MIT,1997
[8]Tanprasert C,Achariyakulporn V.Comparative study of GMM,DTW and ANN on ThaiSpeakeridentificationsys-tem.Proc.ICSLP,2000(Paper No.00718).
说话人识别是指对一段语音进行处理,确定该段语音是谁所说,或者是否是某个人所说。根据识别系统的职能。由于在安全访问控制,身份自动鉴别相关领域的现实意义以及现代设施的硬件支持,近年来说话人识别系统得到了社会以及各种企业的大量关注和研究,近年来,随着Internet和计算机通信行业的迅猛发展,说话人确认系统正广泛应用到Internet的访问控制,计算机认证和无线电话认证等领域。
通过组合MFCC和基音周期特征参数的方法,来提高系统的识别率,但是组合的特征参数缺少动态特性,在噪声等外界干扰下,系统的识别率容易受到影响[1]。文献2通过提取MFCC特征参数然后对其进行加权,能够提高系统识别率,但是仍然没有使用动态特性,缺乏抗干扰性。文献3提出了一种基于MFCC系数分析和仿生模式识别的语音识别方法,该方法旨在减少计算量并且提高识别率。虽然取得了一定的效果,但是仿生模式的识别方法仅适用于小词汇量的语音识别中。
本文通过提取MFCC的一阶差分特征参数,并且与原参数进行组合,提高了特征参数的动态特性,使参数有更好的鲁棒性和更强的抗噪能力,然后对参数加权可以使识别率得到进一步提高,最后采用矢量量化识别,该方法既减少了计算量,并且适用于更广泛的语音识别中。
2、系统描述
本文说话人识别系统在对原始语音提取MFCC参数、MFCC一阶差分参数并且对其进行矢量加权。说话人识别系统的框架,包括语音输入、特征参数提取、模型建立以及相似度比较。说话人识别系统分为两个部分:训练部分和识别部分。现阶段主要研究的是特征提取部分、说话人识别模型建立部分。
2.1改进的MFCC特征参数
本文改进的MFCC参数的提取和计算过程如下,因为标准MFCC参数只反映语音参数的静态特性,MFCC的差分参数反映的是动态特性,而人耳对语音的动态特性更加敏感,本文在MFCC的基础上在最后计算一阶差分倒谱系数反映语音动态的变化,然后与原有MFCC参数进行组合,得到新的24维的组合特征参数。
2.2 VQ识别过程
矢量量化(Vector Quantization,VQ)具有良好的分类特性,能够通过对长时语音特征参数统计信息的量化来区分不同的说话人,并且可以减少数据量,使用该方法建立识别模型,能有效减少数据存储量和计算量。
VQ的关键是设计一个矢量化分类器来对输入的信息进行分类。在训练阶段,采用LBG算法,由说话人语音的训练样本序列,前面所述的12维MFCC参数和12维一阶差分参数作为特征矢量,聚类生成不同码字组成的码书,每个说话人都对应一个码书,每个码书具有M个码字。这些码书在特征空间的分布相互不重叠或者重叠但是有较好的区分度。
2.3特征参数加权
由于用矢量量化的方法仅仅得到说话人语音特征在特征空间的聚类中心,而忽略了特征参数矢量每一维分量对识别的贡献大小,也就是说只描述了特征空间的形状,而没有顾忌具体参数分量对不同说话人的区分程度,因此这种模拟比较粗糙。通过对参数的加权,可以增强说话人的区分程度,减少这种粗糙程度,因此本文对前文提取出的各特征参数矢量进行加权处理,改进的方法如下:令,其中a(t)表示第t维分量的加权系数,P是特征矢量的维数。
3、实验结果
实验中采取录音的方式来获得声音文件,总共有15个不同人声音的wav文件,录音采用12.5k采用率,16bit采样精度,在普通实验室环境下进行,录音人员随便读任何文字,每个人读不同的文字两遍,一次用来作为训练数据,一次用来作为测试数据。在参数提取时取帧长为256个采样点,帧移是100个采样点,提取12阶MFCC和12阶一阶差分MFCC结合作为特征矢量,用LBG算法训练码书。识别采用相同算法生成特征矢量,然后计算与码本之间的距离,根据改进公式作为距离测度。
实验结果中采用MFCC特征参数,码书大小为16时,识别率为66.71%,而采用加权MFCC时识别率稍有提升。当码书大小升为64时,识别率达到87.32%。本文所改进的加权MFCC与一阶差分MFCC参数的结合识别率达到了94.53%。
实验结果表明,Mel频率倒谱系数(MFCC)能很好的反应说话人的个体特征,在不同码书大小的环境下,对不同的参数进行加权以后提高了一些识别率,MFCC与一阶差分MFCC参数(MFCC)的结合比单一MFCC特征参数识别率高出很多,尤其是在码书比较小得时候提升效果更佳明显。该系统VQ矢量技术的使用,有效减少了整个说话人识别系统在训练跟识别时的计算量。
4、总结
本文在MFCC基础上,提取了一阶差分MFCC,并将他们进行组合,有效的利用了静态与动态的参数特征,然后通过加权的方法,提高识别效果。实验证明矢量量化识别的方法能有效的减少该方法在识别过程中的计算量并且能保证足够的识别精度。最后对不同特征参数在不同码书的矢量识别下进行对比,证明了动静态组合的特征参数优于单一的特征参数,加权处理的方法能够进一步提高系统的识别率。
参考文献
[1]孙水发,朱建伟,刘晓丽。基于MFCC等组合特征的说话人识别模型[J]。三峡大学学报(自然科学版),2009,12(31)No.6.
[2]邵央,刘丙哲,李宗葛。基于MFCC和加权矢量量化的说话人识别系统。计算机工程与应用,2002,05:128.
[3]王宪保,陈勇,汤丽平。结合MFCC分析和仿生模式识别的语音识别研究。计算机工程与应用,2011,47(12).
[4]蔡莲红,黄德智,蔡锐。现代语音技术基础与应用[M].北京:清华大学出版社,2003
[5]赵力。语音信号处理[M].北京:机械工业出版社,2003.
[6]周明义,周昆湘,余伶俐。一种基于VQ的说话人确认的阈值设计方法[J].计算机工程与应用,2007,43(13):117-119.
[7]Sridevi V.Sarma.A Segment-based Speaker Verification System Using SUMMIT,MIT,1997
[8]Tanprasert C,Achariyakulporn V.Comparative study of GMM,DTW and ANN on ThaiSpeakeridentificationsys-tem.Proc.ICSLP,2000(Paper No.00718).