论文部分内容阅读
随着统计建模理论的不断完善和计算机运算能力的不断提高,自动语音识别技术近几年来取得了迅速的发展。汉语语音识别技术作为自动语音识别技术中的一种,既存在与其它语言的语音识别相同的共性问题,也有自身的特殊之处。调型信息就是其中的一种,较其他无调语言而言,调型对汉语普通话起着构字辨义的作用。因此调型信息对汉语语音识别的性能的提升起着一个关键的作用。由于表征调型信息的基频特征存在着非连续性、超音段特征等一系列特点,如何有效地对调型信息进行建模成为了一个研究热点。本文在单流隐马尔科夫模型(Hidden Markov Model, HMM)的基础上,提出一种双流隐马尔科夫模型的建模方法。在一系列实验中,表明此方法的性能优于传统的单流隐马尔科夫模型以及多空间概率分布隐马尔科夫模型(Multi-Space Probability Distribution-HMM, MSD-HMM)。在此基础上,又将双流建模的思想引入到声学模型的区分性训练中去并扩展出了同步双流区分性训练,从而使调型信息得到了更充分的利用并极大的改善了汉语语音识别系统的性能。文章结构安排如下:第一章为绪论,对自动语音识别的背景和发展进行简单介绍,重点阐述了语音识别的原理以及系统构成。最后引入汉语语音识别的概念,分析汉语语音识别的特点及难点。第二章介绍了基于隐马尔科夫模型框架下的自动语音识别系统。分别对HMM的数学定义,三个基本问题以及基于HTK工具包开发的识别器进行详细说明。第三章对汉语调型信息及其表征特征(基频)进行介绍,并对该特征的两种提取方法:谐波求和法(Sub-Harmonic Summation, SHS)、ETSI基频提取算法进行说明。第四章对调型特征与声学特征相结合的建模方法进行介绍。首先介绍的是传统的单流隐马尔科夫模型;然后介绍了双流隐马尔科夫模型;最后介绍的是为了解决基频特征不连续性而引入的MSD-HMM模型。并在此章中对三种方法的原理和优缺点进行了比较和说明,在实验中表明SHS基频提取算法与双流隐马尔科夫模型相结合的方法优于另外两种建模方法。第五章对单流区分性训练的准则及更新算法进行详细阐述,并对同步双流区分性训练的更新算法进行了推导和证明。在随后的实验中,同步双流区分性训练较单流区分性训练而言在各个任务集上都表现出了较强的鲁棒性和优异的性能。第六章对全文进行总结,并给出将来能够改进的方法以及后续的工作展望。