论文部分内容阅读
21世纪是一个以信息化、数字化和网络化为主要特点的时代,网络上的文本数据正在以一种前所未有的方式增长,如何在这信息海洋中查找到用户需要的信息,成为了信息检索技术亟待解决的难题。传统的信息检索系统根据用户提交的关键词对文档进行简单的匹配,这类方法获得的检索结果已经不能满足用户的要求了,原因有两点:第一,没有挖掘出文本深层次的语义信息;第二,查询关键词过少,无法表达出用户的真正意图。本文基于以上两点不足,提出了改进策略,利用标签主题模型挖掘文本语义和对查询语句进行扩展,具体如下:本文第三章提出一种基于向量空间特征转换的文本检索方法。由于基于知识库的语义指纹信息和通过标签主题模型挖掘出的标签语义知识是两种不同的表征方式,前者是显式的语义知识,后者是潜在的语义知识,虽然都是对文本语义特征的描述,但是它们表征方式不一样,不能直接融合,在这里我们引入向量空间作为桥梁,将语义指纹知识通过向量空间转换到标签主题模型空间中,然后获得能够兼容于标签主题空间的语义指纹信息,同时也用相关定理证明转换过程的合理性。将这个可兼容的语义指纹信息融入到标签主题模型中,得到新的主题模型语义标签主题模型。融合了语义指纹信息的语义标签主题模型对标签的语义信息具有一定的消歧作用,因此能够更有效地挖掘文本更准确的语义信息,从而提高检索效率。本文第四章提出一种基于初次检索结果查询扩展的文档重排方法,该方法利用标签主题模型来抽取目标文档的概念语义标签,利用初始检索文档的相关标签分布来表征查询主题。第一,对初始检索结果进行标签主题建模,得到“文档—标签”概率矩阵;第二,将前k篇文档视为与用户查询相关,将这k篇文档的标签分布作为一个初始标签分布集合;第三,利用维基百科上生成的概念关系图,过滤掉与查询主题无关的标签,得到一个新的标签分布集合来表征查询主题;最后,基于标签分布来计算查询主题与文档之间一个新的相关度值,再融合初次检索结果,得到最终的文档排序结果。该方法抽取了初次检索出与用户查询相关文档中的相关成分,过滤掉了噪音,更能表征查询主题的语义信息,从而提高检索效率。本文实验所采用的语料库是NTCIR-5,实验后利用TREC信息检索评测工具进行相关指标的测评。实验结果表明本文提出的这两种方法都提高了检索的查准率和召回率,也问接证明了挖掘文本语义信息和弄清查询意图对提高信息检索效率是非常重要。