论文部分内容阅读
声学建模是语音识别系统中的核心技术,声学建模能力的增强对语音识别系统性能的提高具有重要意义。隐马尔柯夫模型(Hidden markov model,HMM)解码效率高,是现在使用最广,也是最成功的声学模型。但HMM以帧为语音处理单元的声学建模方式导致了一系列的无法克服问题,限制了它的建模能力。基于上述原因,研究者们提出了一种更一般的声学模型——段模型。由于段模型的计算复杂度过高,现在还未能有效地应用于实际系统,如大词汇量连续语音识别(large vocabulary continuous speech recognition,LVCSR)系统。
本文对段模型中的一类模型,随机段模型,进行了全面的研究和深入的探讨,建立了一个直接基于段模型的汉语LVCSR系统,并提出了符合段模型特点的LVCSR系统的建模和搜索方案。主要工作和创新点如下:
·建立了一个基于随机段模型的汉语连续数字串识别系统和一个LVCSR系统。连续数字串系统实现的基本的建模和解码算法,为后面的LVCSR系统实现打下了良好的技术基础。
·根据随机段模型的建模特点,提出其在汉语LVCSR识别中的建模方案,以及两种参数合并算法:基于音素的决策树参数合并算法和上下文时长模型参数合并平滑技术。两种方法很好地解决了段模型中声学模型训练时遇到的数据稀疏问题,优化了模型的结构和性能。在863语音测试集中,随机段模型系统较同等条件下HMM系统减少了17.2%的相对字错误率。
·通过分析随机段模型解码的过程,探明其复杂度来源于两个方面:段概率计算复杂度高和搜索空间巨大。这两个因素对算法复杂度的影响是乘积的关系,而不是通常的加和性质。所以要在实用系统中使用段模型,需要同时优化这两方面的性能。本文给出的解决方案包括:
-针对段概率计算复杂度高的问题,提出了快速段模型解码框架和多步段计算算法。极大地缓解了段概率计算复杂度高的问题,在小词汇量语音识别应用中(如连续数字串)达到了实时要求,且其数字串的误识率较同类HMM系统下降了36.5%,取得了很好的结果;
-针对搜索空间大的问题,提出了着色法和由粗到细一遍搜索剪枝算法。着色法将语音序列着上不同颜色,使其对应声学空间内不同的区域,并通过与三音子模型的颜色进行匹配,达到剪枝的目的;由粗到细一遍搜索算法将解码分为两种类型,粗扩展和细扩展。算法根据切分的相似性,利用粗扩展获得切分的潜在区域,使用细扩展获得准确的解码结果,避免了不必要的声学模型扩展和估计。和以往算法不同的是,这两种扩展可以在一遍搜索的过程中完成。着色法和由粗到细一遍搜索算法在不降低解码精度的情况下,成功地将识别时间减少到基线系统的五分之一以内,极大地提高了解码的效率。
·针对段模型解码特点,提出了全路径解码算法,取代现有的最优路径解码方案,可部分弥补由可切分性假设带来的缺点。为充分利用段模型解码特点,优化现行解码框架,做出了有益的探索。
基于段模型的LVCSR建模和搜索算法是本文工作的核心和亮点,在综合应用上述算法和技术之后,基于段模型的汉语LVCSR系统取得了比同等条件下HMM系统更高的识别精度,解码时间也控制在四倍实时以内,是段模型实用化的一个重要进展。