论文部分内容阅读
声学模型训练作为语音识别中的一个重要组成部分,一直以来都是研究者关注的重点。传统的训练算法,例如最大似然估计(MLE)准则,由于在训练时没有考虑到模型之间的相互影响,因此性能往往不甚理想。与之相对应,区分性训练算法充分考虑了各个类之间的边界信息,因此性能相对较好。本文将基于大词汇量连续语音识别平台,围绕声学模型区分性训练技术展开研究,具体工作和创新主要包括以下几个方面:1.对声学模型训练算法进行了深入研究本文主要研究了基于生成性准则的最大似然估计训练算法和基于区分性准则的最大互信息估计(MMIE)训练算法以及最小音素错误(MPE)训练算法,并着重针对最小音素错误训练算法展开了相关的研究,并利用HTK工具搭建了各训练算法的实现平台。2.提出一种提高生成模型区分性的训练算法最大似然估计准则实现比较简单,可以借助经典的EM算法,但是由于没有考虑到不同模型之间的相互影响,因此生成的模型往往并不是最优的。本文提出一种简单的模型加权算法来提高生成模型的区分性,通过比较两组模型的类间方差和类内方差的大小来确定模型加权的权值。具体来说,针对语音识别,我们认为每一个识别基元对应一个类,不同的识别单元可以看作为不同的类,并且每一类都对应着自己的模型,即各自的HMM模型。在每个模型同一级状态上进行模型类内方差和类间方差的比较,模型的类间方差越大,类内方差越小,区分性就越好,在模型加权组合中所占的权重就越大。实验表明,该算法可以显著提高生成模型的识别性能。3.提出基于模型组合的区分性训练的改进算法生成性模型侧重于模型内部的描述,而区分性模型侧重于模型边界的描述。总体上讲,区分性模型的识别性能优于生成性模型,但是对具体模型来说这个结论并不一定成立,在实际中二者各有优势,如果将二者结合可望得到更好的效果。本文提出了几种将生成模型与区分性模型进行组合的算法。与前面提到的生成模型上的加权算法有所不同,由于区分性模型本身的分辨性能已经比较好,如果从整个空间计算模型间的参数值可能无法代表模型实际的混淆程度。因此我们首先提出一种混淆集的概念,得到每个模型最容易被混淆的集合,然后在各自的混淆集上计算模型的混淆参数,使得模型对应的权重计算更加有效。最后在混淆集的基础上提出两种模型组合算法,并应用于生成模型与区分性模型的组合以及区分性模型与区分性模型的组合。此外本文还提出了一种基于模型混淆程度进行模型加权的算法,同时将该算法扩展到多混合分量的情况。实验表明,这些算法可以得到比较好的性能。4.提出模型动态混合分量分解算法语音识别中,声学模型的每一个状态都是一个高斯混合模型,一般认为,只要合理的选择模型高斯混合分量的数目和分布,就可以任意逼近实际的分布。但是高斯分量数目的设计是一个比较繁琐的问题,为了提高模型的描述能力,需要较多的高斯分量,但较多的高斯分量会导致对训练语料的大量需求。因此在实际中高斯分量的数目必须折中选择。本文在MPE区分性训练算法基础上提出一种模型动态混合分量分解的算法。本算法的依据寻找可以提高整个模型空间上区分性能力的模型进行混合分量分解。根据这样的思想,提出了几种不同的模型分解准则,主要利用模型训练过程中的区分性统计信息并结合音素识别正确率进行模型的描述。实现时在MPE训练中生成的Lattice上计算音素正确率和音素混淆情况对应的统计量,利用这些统计量反映模型的描述能力,进行模型混合分量的分解,从而增加模型的区分性能力。该算法不需要引入额外的计算量,在MPE的训练过程中可以直接实现。实验表明,该算法可以在较少的混合分量的条件下得到与模型混合分量全分解相同或者更好的性能。