论文部分内容阅读
基于大词汇量连续语音识别(LVCSR)的语音检索是音频信息检索的重要研究方向。本论文针对该方向的三个重要技术问题进行研究:第一,从多途径来提高语音识别结果的准确性;第二,针对检索问题改进语音识别输出内容的结构形式;第三,改进检索结果的置信度以提高可靠性。
语音识别系统的输出包含的正确结果越多,相应检索结果的正确性和召回率越高。针对这一问题,本文一方面采用多种算法提高识别系统的识别率,另一方面将不同语音识别系统进行融合来提升检索性能。本文分别采用基于最小音素错误(MPE)准则的区分性训练方法和基于特征拼接的TANDEM方法提高识别系统的识别率,得到了两个改进的LVCSR系统,之后利用系统融合的方法将二者进行融合,再应用到语音检索系统之中。
在语音检索系统中,LVCSR输出的多候选内容通常被保存为网格结构,但网格中包含很多无用和重复的信息,使得检索性能不太理想,需要对其进行剪枝和规整。本文在传统的基于网格的语音检索基础上,采用了混淆网络结构来优化网格,建立了基于混淆网络的语音检索系统,并给出了传统聚类算法和快速生成算法这两种混淆网络的生成方法。
考虑到语音识别存在错误,检索系统需要对识别阶段给出的候选词进行置信度打分,以提高检索结果的正确性。本文在语音识别的词后验概率置信度的基础上,提出了用与LVCSR无关的置信度来补充语音识别过程中的置信度的思想。通过计算候选结果基于模板语音的动态时间规划匹配得分,将其作为一种置信度与词后验概率相融合,提高了关键词判决的准确性。
本文提出的改进算法在标准的NIST关键词检测数据库上进行了实验,从实验结果上验证了这些算法的有效性。