论文部分内容阅读
语音关键词检测(Spoken Term Detection, STD)是指用户提供文本形式的查询请求,系统从语音资源库中返回与用户查询相关的语音片段。它是语音识别的一个重要领域,有着广阔的应用前景。语音关键词检测系统一般分离线建立索引和在线检测结果两个阶段,质量好的索引往往能提高系统检测的准确性。在实际的系统中,通常基于语音识别的结果为语音资源库建立索引。由于Lattice有着结构合理、信息含量丰富的优点,目前大多数语音关键词检测系统都是基于Lattice建立索引的。Lattice本身包含了声学似然比和语言模型概率,因此可以很方便的获得Lattice中局部路径的后验概率,将其作为局部路径的置信测度是建立索引的一种简单有效的方法。但是传统的N元文法模型(如二元文法,即bigram模型)没有考虑当前观测词和与其相隔一定距离的词间的相关性信息,因而存在一定的信息丢失。本文利用长距离的bigram模型,能够从不同的层次表达单词之间的语法和语义信息,基于Lattice图形结构和长距离的bigram模型而不是传统N元文法模型建立索引,将会改善索引的质量和系统的检测性能。本文考察了基于不同距离bigram模型的语音关键词检测系统的性能,结果表明,整合多种距离长距离bigram模型语音关键词检测系统的检测结果,能够获得比基于传统N-gram模型的语音关键词检测系统更高的识别召回率。在面向新闻数据库的语音关键词检测系统中,新闻语音数据是构建语音识别器的理想语料。在语音关键词检测系统的前端,需要构建语音识别器将语音资源转化为文本表示。但是目前的商业新闻语料普遍存在标注不够精细的问题,标注是段落级而非语句级,因此不能直接用来完成语音识别的相关任务。本文提出了一种基于语音识别技术的自动切分新闻语料的方法。该方法构建线性的识别网络,并在句间添加可选的静音模型对不够精细的语音段进行解码,之后根据语音帧在静音模型上是否驻留以及驻留时间的长短来判断是否需要对段落级的语音进行切分。实验表明,本方法在语料时长低于11分钟的情况下具有较好的性能。