论文部分内容阅读
声学模型区分性训练是近年来语音识别领域的研究热点之一,它已经成为当今主流的语音识别系统,尤其是大词汇量连续语音识别LVCSR系统中最重要的模型训练手段之一。本文主要针对声学模型区分性训练及其在LVCSR系统中的应用问题进行较深入的研究和讨论。另外,本文对语音识别系统的另一个重要模块——置信度判决也有所涉猎。首先,本文提出了一种新颖的、称为“受限线性搜索”CLS的优化算法,该算法用于语音识别区分性训练中的CDHMM模型参数更新。CLS方法可以用于区分性训练统一准则框架下各种区分性准则的模型更新,包括MMI、MCE、MWE/MPE等。在该方法中,HMM的区分性训练问题首先被定义为一个受限优化问题,并且直接使用模型间的KLD度量来定量的描述所定义的模型间限制。接着,基于简单的线性搜索思想,我们发现在将该模型限制转化为二次函数形式后,可以很容易获得模型更新参数的闭式解。CLS方法可以用于优化CDHMM模型中的各种参数,包括高斯均值、协方差矩阵、权重等。接着,本文对我们此前提出的称为“信任区域”(Trust Region)的区分性训练模型参数更新方法进行了进一步理论分析和扩展。Trust Region方法通过将MMI区分性训练问题转变为一个优化理论中可参考的标准问题,从而准确高效的求取待优化函数的全局最优点。在引入上述模型间限制的前提下,Trust Region方法可以对区分性训练中的辅助函数进行完美的优化。然而,在区分性训练中对辅助函数的最优化无法保证对原始目标函数的优化。因此我们通过对Trust Region问题的深入理论分析,提出构造一种称为“有界信任区域”(Bounded Trust Region)的新辅助函数。该辅助函数仍然是目标函数的有效估计,更重要的是,在满足模型间限制的前提下,该辅助函数是原始目标函数的下界。这个优良品质可以确保对该辅助函数的最优化也能够带来对目标函数的优化。另外,这里构造的新辅助函数仍然可以直接使用标准的Trust Region方法来解决,从而可以快速求取全局最优点。实验表明基于Bounded Trust Region的方法超越了传统的EBW算法和原始Trust Region方法。第三,本文还针对实际的LVCSR系统中存在的若干问题进行了探讨,包括处理海量训练语料时的计算能力问题和由此导致的效率瓶颈,以及区分性训练中普遍存在的推广性问题等。在此基础上,我们分别结合基于WFST解码器生成的具有优良品质的词图,和传统的基于HTK计算区分性训练相关统计量的工具,搭建了一套用于区分性训练的新流程。该流程相对于传统完全基于HTK流程的区分性训练,不仅在训练效率上得到了极大的优化,在识别性能上也有一定的提升。最后,本文在语音识别系统的重要模块之一——置信度判决CM方向进行了相关工作。我们首先基于语音识别系统的输出定义了所谓的“目标区域”和“非目标区域”,并分别针对不同的区域选择合适的置信度判决方法。我们尝试发掘“非目标区域”中的额外信息,以期对传统只基于“目标区域”进行CM计算的方法起到补充作用。实验结果表明,基于“非目标区域”的置信度对基于“目标区域”的置信度有很好的补充作用。接下来,我们又进一步利用贝叶斯信息准则对“非目标区域”中所吸收的语音边界进行定位,基于定位后的置信度取得了更多的性能提升。