论文部分内容阅读
对一个非特定人的大词汇量加续语音识别系统,现有的基于数据驱动的模型训练方法需要非常多的训练数据.因而在有限的训练数据下,基于传统识别单元的识别效果并不是很好.同时,传统的连续语音搜索算法识别效率很低,往往不能达到实时的要求.该文围绕汉语大词汇量连续语音识别中识别单元的选取以及搜索算法进行了一些研究,主要内容包括:1.根据汉语音素发音不同的分类特点,提出将各HMM模型中相应属于同一个子集的声母或韵母的状态进行捆绑训练和识别的方法.该文提出的HMM模型表示方法可以更有效的利用有限的训练数据,实验结果表明这种基于细化声韵母捆绑的全音节识别单元比声韵母识别单元、细化的声韵母识别单元以及全音节识别单元的识别错误率分别下降了14.05﹪、6.6﹪和5.11﹪.同时对比全音节模型,基于细化声韵母的全音节模型所需计算的观察矢量概率次数减少了50.48﹪.2.根据汉语发音以词为瞬时间歇的特点,提出在连续语音识别的帧同步搜索算法当中,加入对输入连续语音流进行预切分后的路径限制.切分算法首先在特征提取阶段得到输入语音的倒谱,然后利用与描述语音间歇的倒谱特征之间的倒谱距离进行判决,得到预切分信息.实验结果表明切分后的识别率上升了0.75﹪,同时识别速度提高了38.11﹪.3.提出在帧同步搜索过程中,在词跳转的点上,根据本结束点和该点对应的起始点之间的累积概率差和该词持续时间的比值,得出动态的对词跳转的惩罚概率.从而补偿经典隐马尔可夫模型齐次性假设给识别结果带来的插入错误数.实验结果表明,引入动态的词跳转惩罚概率比引入固定的惩罚概率插入错误率降低了1.04﹪,比不引进惩罚概率插入错误率降低了1.59﹪.4.根据对传统观察矢量概率公式的分析,得出了一种在对数域计算的快速替代方法.分析显示该方法在运算量和运算速度上都优于传统的计算方法.