论文部分内容阅读
语音识别技术作为一个计算机科学的热点研究领域有着深刻的理论研究意义和巨大的商业应用潜力。而大词汇量连续语音识别任务是语音识别技术中最具有实际应用价值的任务之一。在大词汇量连续语音识别任务中,解码器模块由于其实现的复杂性一直以来都是语音识别技术的核心问题。
本文采用以加权有限状态转换器(WeightedFiniteStateTransducer,WFST)为框架的静态搜索网络扩展技术,设计并实现了一个大词汇量连续语音识别解码器。
在搜索网络构建方面,本文利用合成算法对各层模型进行静态合并,并使用WFST的确定化和最小化算法对搜索网络进行优化,最后通过成分化(Factoring)的方法压缩搜索网络的规模。在搜索方面,本文采用Viterbibeam搜索算法,实现了在线最优结果解码和词网输出。
在标准评测语料Hub-4上进行的测试显示,本文所实现的解码器与采用动态词树搜索网络扩展方法的Sphinx3.3解码器在同等词错误率下,速度提高约50%。