论文部分内容阅读
随着网络技术的发展,网上的资源呈指数级增长,如何快速、准确的从海量的web数据中查找到所需要的信息,是当今信息技术领域中研究的一个热点课题。传统的信息检索技术是基于文本的检索,信息查询式的提交是以提交关键词为主。但是XML文档中有隐含的结构信息,XML标记明确表达了它的含义,搜索引擎就可以根据关键词和内容之间的依存关系进行准确定位,从而能够根据用户提供的关键词,返回正确的结果。所以,XML的结构化信息使得在XML文档中实现语义检索要比在传统搜索引擎中要容易得多。针对当前XML信息检索系统的不足和用户的需求,本文研究并设计了一个基于缓冲的XML语义检索系统:在检索的整体架构中加入一个缓冲结构——常检索模块,该模块主要记录用户的频繁查询模式,当用户提交关键词之后,系统首先在该模块中查找,如果能找到需要的结果则直接返回,否则才去检索模块进一步查找,大大提高了检索的效率;为更好的实现语义检索,本文在检索单元的问题上进行了研究,并提出了一种自动界定检索单元的方法。这种方法利用XML文档自身携带的语义和结构信息,根据具体的查询关键词,可以自行确定一个大小合适且符合用户语义要求的检索单元,称之为最小检索单元(Minimum Retrieval Unit,MRU)。这个检索单元既非整个文档也非单个元素,而是用户感兴趣并且符合关键字包含关系的元素集合或者XML子树集合,该集合可以看作是原文档的一个片断。确定好检索单元之后,要建立倒排索引。本文将信息检索中常用的方法——聚类应用于其中。利用XML文档的结构信息,使具有相同或相似结构的MRU形成一簇,使每一簇都可以由一个相同的特征词来描述,先为每个簇中的MRU建立索引,然后以此特征词为关键词再对所有的簇建立索引,形成一个二级索引结构。既可以快速有效的建立索引,又提高了检索效率。本文的主要贡献是:(1)提出了一种XML的频繁查询模式挖掘算法,利用该算法挖掘出用户的频繁查询模式,并储存在常检索模块,建立一个缓冲结构,提高了检索速度;(2)提出了一种基于路径信息的XML文档聚类算法,并把该聚类算法应用在索引结构的建立中,实验证明了该算法的有效性和可行性;(3)提出一种自行界定检索单元的检索方法,减少了计算开销,提高了检索的准确率。