论文部分内容阅读
本文主要的目标是在语音识别率不降低或者降低很小的前提下,加快语音识别的速度。具体开展了语音识别算法级和代码级别的优化工作。
在算法级优化方面,主要针对计算量最大的两个模块进行了优化:在声学模型得分计算阶段,尝试进行了帧降采样、上下文无关音子模型选择、基于矢量、子矢量量化的高斯选择等,对高斯混合模型分层优化;对于搜索阶段,在已有的语言模型LookAhead的基础上又尝试了音子LookAhead方法剪裁搜索空间。实验结果表明上述优化算法是有效的。
在代码级优化方面,首先使用了Intel的VTune性能分析工具,找到解码程序计算量最大的代码段,对其进行了优化:一方面,对高斯计算中均值、方差的存储进行了优化;另一方面,利用单指令多数据中的数据流扩展指令集SSE(StreamingSIMDExtention)对高颠计算循环体内的代码进行优化,加快解码的速度。
最后,优化系统在识别率降低5%以内的情况下,从4.3倍实时达到了1.7倍实时。