论文部分内容阅读
大规模连续语音识别的研究已经进行了二十多年,虽已取得了显著进展,但距离广泛应用还有相当的距离。在克服识别算法本身缺陷、追求识别性能提升的过程中,研究者们逐渐引入了置信度的概念,用它来衡量语音识别系统所作决策的可信程度。近年来,语音识别置信度在语音错误检测与错误纠正,无监督和半监督训练、多遍搜索技术和语料库中错误语料甄选等应用中都发挥了非常重要的作用。传统的语音识别置信度标注基于不同置信特征或者特征组合进行分类判决,目前常使用的置信特征主要来源于解码信息。但是,方面现有置信度特征对解码信息的挖掘仍局限于孤立和静态,而忽略了词与周围环境之间的关系;另一方面,目前声学特征仍占主要地位,而人类听觉实验表明,人在进行语音理解时,大约有30%的信息来自于语法、语义等知识的指导。因此,在置信度特征提取中,如何挖掘出词与环境之间的关系,同时提炼出词的语法和语义特征,从而提高识别后处理性能,是一个非常值得研究的问题。基于上述目的,本文在搭建传统语音识别置信度标记系统的基础上,提出了两种新的置信度特征,一是环境特征,分为上下文环境、动态环境、句全局环境三类,通过对解码信息的再加工,从空间与时间角度较全面地描述了词与环境之间的关系;二是基于主题相似性的语义层置信特征提取算法TSS (Topic Similarity based Semantic confidence feature extraction algorithm),通过主题模型LDA(Latent Dirichlet Allocation)计算得到识别结果中词的主题分布及其上下文的主题分布,并将二者之间的主题相似性作为词的语义置信特征。实验表明,本文提出的两种特征深入挖掘了解码层的有效信息,又增加了置信特征的信息来源,与解码层置信特征进行组合后能有效地提高置信度标注的精度。