论文部分内容阅读
语音检索是指对于用户输入的查询请求,从语音库中检索并返回满足该请求的语音片段。随着科技的日益进步和互联网的飞速发展,人们接触到的多媒体信息也呈指数增长,这其中广播新闻语音占据了很大的比重,且易获取,具有重要的科研价值。而利用语音检索技术可以帮助人们在海量的多媒体数据中迅速找到自己感兴趣的内容,因此本课题有着重要的研究意义和实用价值。语音检索技术其实是语音识别技术与信息检索技术的有机结合,然而简单的技术结合会导致检索性能严重依赖于识别系统的识别精度。因此在识别系统性能一定的情况下,研究者将精力集中在多候选的识别结果形式上,常见的多候选识别形式有N-best、网格Lattice和混淆网络,其中N-best未包含所有的候选结果,而Lattice结构含较多冗余且不利于建立索引,因而往往使用结构更紧凑的混淆网络形式。另外,在识别基元的选择上,以词为基元无法避免集外词问题,因此在汉语语音检索技术的研究中常采用基于音节的网格结构。本课题首先利用上下文相关技术对识别系统中的声学模型进行训练,重点分析了模型训练过程中参数共享策略及高斯混合数的影响,并结合语言模型建立了大词汇连续语音识别系统,接着利用向量空间模型在One Best识别形式上完成了语音检索基线系统。而对于包含多候选结果的网格形式,利用前向后向算法计算出每个候选项的后验概率,在此基础上进行聚类、剪枝等操作,生成了结构更加节凑的混淆网络,并通过改进的向量空间模型建立索引,搭建语音检索系统。此外,本文对检索系统的基元进行对比研究,如果以词为基元,则无法解决集外词查询问题,且系统的召回率较低;而以音节为基元,又会降低检索系统的准确率,因此本文提出一种基于后向融合的多基元混合检索系统。实验表明,采用上下文相关的声学建模技术可以很好的适应发音环境的变化,提高了识别系统的准确率和鲁棒性;改进的向量空间模型能更好的体现特征向量在文档中所占的比重,可以提高检索系统的检索精度;而多基元混合检索系统的使用不仅可以从根本解决集外词问题,而且能使系统在准确率和召回率上达到很好的平衡。