论文部分内容阅读
随着Web信息资源的迅速增加,如何在浩瀚的信息海洋中准确、方便、快速地找到自己所需的信息,是个迫切需要解决的问题。由于自然语言的模糊性和用户信息需求的随机性和动态性,导致检索效率低下。因此查询扩展技术是不可避免的。查询扩展是提高检索效率的有效方法。在一般的查询扩展中,和查询中某个查询词关联较强的词就被选了出来,但是,查询概念却很少被考虑进来。事实上,只有和整个查询主题相似而不是与单个查询词相似的这类词被加入到查询中,才更有益于查询效果的提高。因此本文提出了基于Markov概念的信息检索模型。Markov是一种较好的表示知识关联的图形表示方法,可以从实例数据来训练获得,并且它的无向性能更好地解释信息检索中知识之间的关系,具有强大的学习功能和推导能力。本文通过对文档集的学习,词与词之间相关性被提取出来,从而构造出Markov网络,把从Markov网络中挖掘出来的概念加入到检索模型中。试验表明:我们的模型在很大程度上提高了检索效率。本文的创新点在于:1.本文是把从Markov网络中挖掘概念的具体表达形式-团和Markov概念图加入到检索模型中。基于团的Markov网络信息检索模型使得词与词之间的简单相关性更加强化,把团作为一个概念整体加入到查询扩展中。而基于Markov概念图的信息检索模型则是重点考虑查询词之间的依赖性,把查询层的相关性传递到索引项层。在查询过程中加入候选词修剪技术,一些噪音词被剪去,而与查询主题相关的词被扩展进来,从而有利于检索效率的提高。2.通过试验验证和分析了基于Markov概念的信息检索模型的性能,并与一些常用的检索模型算法及已有的Markov网络信息检索模型的性能做了比较。本文提出的模型表现比较优异,在很大程度上提高了检索效率。其中基于Markov概念图的信息检索模型性能最优,同时还能降低检索的计算量。