论文部分内容阅读
目前的语音识别技术对环境条件依赖较强,当测试条件与训练环境不一致时,识别器性能不可避免地急剧下降。这大大制约了语音识别的实际应用,同样也是基于语音识别的自动发音评估系统在实际应用中的一大瓶颈。条件所限,普通话水平测试的录音环境比较一般,各种加性背景噪声和录音设备的卷积噪声严重影响自动评估结果的准确性。为解决上述问题,本文借助强健语音识别的研究成果改善普通话发音评估系统的性能,将功率归正倒谱系数(PNCC)引入普通话发音评估,提高了系统性能。
本文主要工作如下:
1、研究基于特征的各类强健语音识别方法的性能。本文用PocketSphinx识别器基于TIMIT语料库搭建测试平台,比较了各种基于特征参数强健算法的性能,其中包括特征参数归正化算法中的CMN和MVN,直方图均衡化HEQ算法,以及特征补偿算法中的矢量泰勒级数(VTS)算法。其中,VTS算法的鲁棒性最强,但其计算量过大,很难应用到实时的评估系统中。
2、介绍并测试了新的鲁棒性特征提取算法一功率归正倒谱系数PNCC。它同MFCC和PLP一样也是一种基于人耳听觉特性的特征。PNCC的三项创新设计使该特征具有很强的鲁棒性。本文的测试实验表明其鲁棒性优于MFCC、PLP以及前面提到的基于MFCC的各种特征强健算法,而PNCC计算复杂度仅略高于MFCC,可以应用于实时的自动发音评估系统中。
3、将PNCC特征引入自动发音评估。本文使用普通话测试实录语料,在HTK平台上搭建了基于混淆网络后验概率的普通话自动发音评估系统。将基频信息与语音频谱信息分别进行声学建模,各自在汉语语音识别的基础上评分,采用“并联”方式将两种分数结合为最后的评估分数。本文首次将特征PNCC引入到自动发音评估系统。测试实验表明:相比MFCC和PLP,PNCC普通话自动发音评估系统性能提高显著。