基于TANDEM的声学模型区分性训练在语音评测系统中的研究

论文部分内容阅读

近年来,以计算机辅助语言学习为代表的语音评测系统越来越多的运用在口语考试和语言教学活动之中,不仅提高了评分工作的公正性、高效性,保证了考试成绩的客观性,而且增强了教学反馈的及时性、准确性,激发了学生的学习兴趣。目前主流的语音评测系统采用的是基于MFCC特征的最大似然估计MLE建模方式。这套方法虽然成熟可靠,但也存在着诸如易受模型假设错误的影响、对模式的识别分类能力较差等缺点,从而制约了系统评测性能的进一步提升。因此,本文考虑引入区分性训练技术和TANDEM特征,分别在声学模型训练准则和声学特征两个方面对原有系统进行改进。本文的结构如下:第一章概述性地介绍了语音评测技术的发展背景,较为详细地说明了语音评分系统和发音检错系统的基本原理和实现方式,重点阐述了语音评测的识别理论基础,包括声学特征、声学模型和语言模型等概念。第二章首先通过对贝叶斯决策理论的叙述指出了传统的最大似然估计MLE准则存在的不足,在此基础上引入了声学模型区分性训练的思想。再经过对各种区分性训练准则的目标函数和参数更新算法进行推导和比较,将它们统一地纳入到一套训练框架体系之中。之后,文章又分析了语音评测系统的各种度量得分与不同区分性训练准则目标函数的对应关系,从而为区分性训练的建模方式在语音评测系统中的应用提供了理论基础。第三章首先分析了HMM/GMM框架和HMM/ANN框架各自的优缺点,之后提出了一种综合了两者优点的特征变换前端处理技术——TANDEM方法,并将其应用到普通话发音检错系统中。TANDEM方法通过使用区分性训练的神经网络去估计音素级后验概率,经过一系列后续处理将原始MFCC特征转化为TANDEM特征,作为基于HMM统计模型的评测系统的输入,进而完成评分或检错的任务。实验结果证明,TANDEM方法使系统的检错性能有了较大的提升,结合MLLR等自适应方法的使用效果会更为明显。第四章首先分析了TANDEM特征和区分性训练技术相结合的可能性,之后介绍了英文评分系统的架构、评分特征和系统性能度量。最后搭建了MFCC-MLE、TANDEM-MLE、MFCC-MPE、TANDEM-MPE四个系统,分别用Child测试集和Middle测试集在不同配置的系统上进行测试,实验结果证明,基于TANDEM的声学模型区分性训练技术是一种有效的切实可行的提高目前英文发音评测系统性能的方法。第五章对全文进行总结,指出不足之处和改进方向。

与本文相关的学术论文