论文部分内容阅读
二十世纪九十年代以来,连续语音识别技术取得了突破性的进展,推动了多种应用的发展。如今,我们正在步入移动互联和电子商务时代。嵌入式系统和移动通信领域的新应用迫切需要更高效、更快速和价格更加低廉的语音识别系统,因此,语音识别系统的实时性成为当前的研究热点,而语音识别系统实时性能取决于搜索算法的效率。本文主要研究了连续语音识别搜索算法的基本原理,对搜索算法的综合应用进行了实践,并且对现有算法进行了改进优化。 连续语音识别实质上是在语音学、语言学等多层知识定义的状态空间内搜索最符合语音输入的词序列。为了有效地组织各种知识源,约束搜索空间,基于动态规划思想的Viterbi beam搜索算法成为目前连续语音识别主要采用的方法。本文深入分析讨论了Viterbi beam搜索算法的原理、特点和实现技术,详细讨论了状态层、词层的搜索空间裁剪策略和最大模型数裁剪策略。为了验证Viterbi beam搜索算法的有效性,本文设计了可行的Viterbi beam搜索策略,构建了小型英文连续语音识别系统ATW(Ask The Way)。实验表明,ATW系统在低配置计算机上运行,基本实现了实时连续语音识别,识别率在97%以上。 本文进一步通过实验分析了Viterbi beam搜索算法的缺陷。Viterbi beam搜索算法使用固定的裁剪门限,没有考虑搜索过程中不同阶段的不同特性和模型匹配不同语音输入的差异性,只能从最保守的角度去设置裁剪门限,浪费了很多计算资源。另外,在Viterbi beam搜索过程中,计算高斯混合概率密度时很费时。本文从两方面对Viterbi beam搜索算法进行了改进。一方面,使用自适应的裁剪门限代替固定不变的裁剪门限,分析了现有自适应Viterbi beam搜索算法的局限性,提出了基于活动模型数变化的自适应Viterbi beam搜索算法。该算法根据搜索初期阶段模型最少驻留帧数和活动模型数变化的关系自适应的增大裁剪门限。与标准Viterbi beam搜索算法相比,基于活动模型数变化的自适应Viterbi beam搜索算法的搜索速度提高了35.56%。另一方面,使用高斯混合概率密度的最近邻快速估算方法,使标准Viterbi beam搜索算法的搜索速度提高了6.67%。本文对最近邻快速估算方法进行改进,在搜索过程中根据已处理过的数据统计出各个高斯混合分量产生最高对数概率的概率,并依此预测随后的计算中最有可能产生最高对数概率的高斯混合分量,优先计算更有可能产生最高对数概率的高斯混合分量,使标准Viterbi beam搜索算法的搜索速度提高了15.56%。 最后总结了本文的研究成果与创新,并对今后的研究方向提出了自己的建议。