论文部分内容阅读
摘 要:基于CHMM的语音识别系统识别率高,但却占用系统资源较大,从而限制了其在资源受限的实际应用环境的有效实现。针对上述问题,给出特征参数选择的理论依据,弥补以往研究仅从实验结果分析,缺少理论依据的不足;同时提出根据各特征参数对系统误识率的影响程度来选择特征参数的新方法。该方法能使系统在训练,识别过程中的计算量和存储量明显减小,同时系统误识率不会显著改变。这为资源受限的语音识别系统,提供新的思路和有效的特征参数选择方法。
关键词:语音识别;CHMM模型;特征参数选择
中图分类号:TP391.4 文献标识码:A
1 引言
在语音识别的三大算法中CHMM算法的高识别率是以大计算量和大存储量为代价的,在基于嵌入式技术的语音识别系统或具有较强实时性要求的语音识别系统等特殊情况下,系统的资源和计算能力往往受到较大的限制,在保证一定识别率情况下减少识别算法对系统存储与计算资源的需求,具有重要意义。而语音识别系统的性能与系统所采用的特征参数密切相关,这就为我们利用特征参数的选取来实现系统识别性能与计算资源需求之间的折衷处理成为可能。目前,有很多文献做了各类特征参数对识别效果影响程度的研究工作,却没有讨论同一种类参数分量的问题;则通过对相邻分量的组合,用实验结果说明了MFCC分量的相对重要性,但他们都仅用实验结果加以说明,缺乏理论分析。
本文从CHMM模型的特点出发:一方面从理论上给出了选择特征参数的数学依据,另一方面提出根据特征参数对系统误识率的影响程度,选择特征参数的方法。
2 基于CHMM模型特征参数选择的理论分析
CHMM的Gauss概率密度函数的协方差矩阵本来应该是对称的满矩阵,为了降低对计算复杂度和存储量的要求,一般简化为对角矩阵。采用对角协方差阵使模型的参数减少,也有利于避免因训练样本不足而影响模型参数估计的可靠性。而且实验结果表明,概率密度函数的个数较多且取对角协方差阵的方案优于概率密度函数较少且取满元协方差阵的方案。所以,实际中一般使用具有对角协方差阵的Gauss概率密度函数。CHMM计算
数下降N*M*T*R*K次;模板库中Gauss概率密度函数参数个数减少N*M*R*2*K个。
4 实验及其结果分析
实验数据:6个女性发音,0~9十个数字,每个数字发音50次,其中30次用于建立CHMM模型;实验模型选择:采用六个状态的从左到右的无跨越的4阶混合Gauss概率密度函数的CHMM模型,端点检测方法选择经典的双门限方法。
实验Ⅰ 在MFCC AMFCC中去掉某一分量找到对误识率影响较大的分量(见表1)。
实验Ⅱ 在MFCC AMFCC中去掉对误识率影响小的分量,找到最佳(见表2)。
从实验结果可以看出,在CHMM模型上采用MFCC1、MFCC2、MFCC4、MFCC5、MFCC7、MFCC8、MFCC10、MFCC11、△MFCCi(i≠11)组成19维的特征矢量,系统的误识率仅上升2.75%,即系统的识别率仍有95.75%,可以满足实际需要。而模板库参数个数下降2400个;同时在训练中N(U,σ2)的计算次数减少了41,834,880*K次(K为迭代次数);匹配时N(u,σ2)的计算次数减少1200*T次(T为待识语音帧数)。实验结果表明:与常规的24维MFCC △MFCC相比,选择其中对识别率贡献大的主要分量构成的低维特征矢量,系统在训练、识别过程中N(u,σ2)的计算次数和模板库参数个数明显下降,而系统误识率仅略微上升。
5 结论
针对实际应用中资源有限的语音识别系统对识别率及计算量的特殊要求,本文根据基于对角协方差阵的CHMM模型的特点,给出了特征参数选择的理论依据,弥补了以往研究仅从实验结果分析,缺少理论依据的不足;同时提出根据各特征参数对系统误识率的影响程度来选择特征参数的新方法。通过保留对误识率影响大的分量,舍去对误识率影响小的分量,寻求次优低维参数组合。使系统在降低特征矢量维数减少计算量的同时,保证了系统误识率不会显著上升,系统的识别效果保持相对稳定。从而来满足语音识别系统对计算量、存储量等资源消耗指标和识别率的双重要求。
此外,本文提出的基于CHMM的语音识别系统特征参数的选择方法,不仅适用于同一类参数分量组合与系统误识率的关系,而且适用于不同参数组合与系统误识率的关系分析。所以,在实际应用中,人们可以打破传统的取整体同一类参数的方法,根据对系统识别率与存储量、计算量的要求,合理选择的特征参数组合达以到目标。
关键词:语音识别;CHMM模型;特征参数选择
中图分类号:TP391.4 文献标识码:A
1 引言
在语音识别的三大算法中CHMM算法的高识别率是以大计算量和大存储量为代价的,在基于嵌入式技术的语音识别系统或具有较强实时性要求的语音识别系统等特殊情况下,系统的资源和计算能力往往受到较大的限制,在保证一定识别率情况下减少识别算法对系统存储与计算资源的需求,具有重要意义。而语音识别系统的性能与系统所采用的特征参数密切相关,这就为我们利用特征参数的选取来实现系统识别性能与计算资源需求之间的折衷处理成为可能。目前,有很多文献做了各类特征参数对识别效果影响程度的研究工作,却没有讨论同一种类参数分量的问题;则通过对相邻分量的组合,用实验结果说明了MFCC分量的相对重要性,但他们都仅用实验结果加以说明,缺乏理论分析。
本文从CHMM模型的特点出发:一方面从理论上给出了选择特征参数的数学依据,另一方面提出根据特征参数对系统误识率的影响程度,选择特征参数的方法。
2 基于CHMM模型特征参数选择的理论分析
CHMM的Gauss概率密度函数的协方差矩阵本来应该是对称的满矩阵,为了降低对计算复杂度和存储量的要求,一般简化为对角矩阵。采用对角协方差阵使模型的参数减少,也有利于避免因训练样本不足而影响模型参数估计的可靠性。而且实验结果表明,概率密度函数的个数较多且取对角协方差阵的方案优于概率密度函数较少且取满元协方差阵的方案。所以,实际中一般使用具有对角协方差阵的Gauss概率密度函数。CHMM计算

4 实验及其结果分析
实验数据:6个女性发音,0~9十个数字,每个数字发音50次,其中30次用于建立CHMM模型;实验模型选择:采用六个状态的从左到右的无跨越的4阶混合Gauss概率密度函数的CHMM模型,端点检测方法选择经典的双门限方法。
实验Ⅰ 在MFCC AMFCC中去掉某一分量找到对误识率影响较大的分量(见表1)。
实验Ⅱ 在MFCC AMFCC中去掉对误识率影响小的分量,找到最佳(见表2)。
从实验结果可以看出,在CHMM模型上采用MFCC1、MFCC2、MFCC4、MFCC5、MFCC7、MFCC8、MFCC10、MFCC11、△MFCCi(i≠11)组成19维的特征矢量,系统的误识率仅上升2.75%,即系统的识别率仍有95.75%,可以满足实际需要。而模板库参数个数下降2400个;同时在训练中N(U,σ2)的计算次数减少了41,834,880*K次(K为迭代次数);匹配时N(u,σ2)的计算次数减少1200*T次(T为待识语音帧数)。实验结果表明:与常规的24维MFCC △MFCC相比,选择其中对识别率贡献大的主要分量构成的低维特征矢量,系统在训练、识别过程中N(u,σ2)的计算次数和模板库参数个数明显下降,而系统误识率仅略微上升。
5 结论
针对实际应用中资源有限的语音识别系统对识别率及计算量的特殊要求,本文根据基于对角协方差阵的CHMM模型的特点,给出了特征参数选择的理论依据,弥补了以往研究仅从实验结果分析,缺少理论依据的不足;同时提出根据各特征参数对系统误识率的影响程度来选择特征参数的新方法。通过保留对误识率影响大的分量,舍去对误识率影响小的分量,寻求次优低维参数组合。使系统在降低特征矢量维数减少计算量的同时,保证了系统误识率不会显著上升,系统的识别效果保持相对稳定。从而来满足语音识别系统对计算量、存储量等资源消耗指标和识别率的双重要求。

此外,本文提出的基于CHMM的语音识别系统特征参数的选择方法,不仅适用于同一类参数分量组合与系统误识率的关系,而且适用于不同参数组合与系统误识率的关系分析。所以,在实际应用中,人们可以打破传统的取整体同一类参数的方法,根据对系统识别率与存储量、计算量的要求,合理选择的特征参数组合达以到目标。