基于缓冲的XML语义检索系统研究与设计

来源 :山东大学 | 被引量 : 0次 | 上传用户:wwj88888888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的发展,网上的资源呈指数级增长,如何快速、准确的从海量的web数据中查找到所需要的信息,是当今信息技术领域中研究的一个热点课题。传统的信息检索技术是基于文本的检索,信息查询式的提交是以提交关键词为主。但是XML文档中有隐含的结构信息,XML标记明确表达了它的含义,搜索引擎就可以根据关键词和内容之间的依存关系进行准确定位,从而能够根据用户提供的关键词,返回正确的结果。所以,XML的结构化信息使得在XML文档中实现语义检索要比在传统搜索引擎中要容易得多。针对当前XML信息检索系统的不足和用户的需求,本文研究并设计了一个基于缓冲的XML语义检索系统:在检索的整体架构中加入一个缓冲结构——常检索模块,该模块主要记录用户的频繁查询模式,当用户提交关键词之后,系统首先在该模块中查找,如果能找到需要的结果则直接返回,否则才去检索模块进一步查找,大大提高了检索的效率;为更好的实现语义检索,本文在检索单元的问题上进行了研究,并提出了一种自动界定检索单元的方法。这种方法利用XML文档自身携带的语义和结构信息,根据具体的查询关键词,可以自行确定一个大小合适且符合用户语义要求的检索单元,称之为最小检索单元(Minimum Retrieval Unit,MRU)。这个检索单元既非整个文档也非单个元素,而是用户感兴趣并且符合关键字包含关系的元素集合或者XML子树集合,该集合可以看作是原文档的一个片断。确定好检索单元之后,要建立倒排索引。本文将信息检索中常用的方法——聚类应用于其中。利用XML文档的结构信息,使具有相同或相似结构的MRU形成一簇,使每一簇都可以由一个相同的特征词来描述,先为每个簇中的MRU建立索引,然后以此特征词为关键词再对所有的簇建立索引,形成一个二级索引结构。既可以快速有效的建立索引,又提高了检索效率。本文的主要贡献是:(1)提出了一种XML的频繁查询模式挖掘算法,利用该算法挖掘出用户的频繁查询模式,并储存在常检索模块,建立一个缓冲结构,提高了检索速度;(2)提出了一种基于路径信息的XML文档聚类算法,并把该聚类算法应用在索引结构的建立中,实验证明了该算法的有效性和可行性;(3)提出一种自行界定检索单元的检索方法,减少了计算开销,提高了检索的准确率。
其他文献
随着多媒体、网络技术的飞速发展,图像应用的日益广泛,基于内容的图像检索技术CBIR(Content Based Image Retrieval)成为当前多媒体检索研究的热点之一。它是直接采用图像内容
随着信息技术的迅速发展,知识传播的速度不断加快,企业经营环境和经营模式已经发生了深刻的变化。企业应用集成(EAI,Enterprise Application Integration)越来越成为各个企业所
WAP事务协议(WTP)作为WAP协议体系结构中的一个重要部分,向会话层提供基于请求响应的分布式事务服务。由于WAP论坛将WAP协议规范以自然语言的形式发布,这样的好处是可读性好,
以Web技术为代表的Internet极大促进了人类的知识传播和文化交流,改变着人类的生产和生活方式。然而,目前作为建立在标准格式化语言上的Web,并不具有良好的语义表示能力,这给基于
学位
无线传感器网络技术是近年来快速发展的一门技术,它涵盖微电子学,无线电通信和计算机技术等学科。它是由大量部署在监测区域内微型传感器节点通过自组织和无线通信所形成的网
近年来,随着电子商务和Internet的不断发展,Web服务已经成为最具有生命力的Web应用集成技术之一。对Web服务的相关的研究也得到顺利开展。具体来说,研究者们从Web服务的抽象和描
随着互联网技术的不断进步,Internet已经成为人们日常生活不可缺少的部分。同时由于移动技术的迅猛发展,手机、掌上电脑、笔记本电脑等便携式或移动设备大量应用,越来越多的人希
在我国国民经济信息化迅速发展的今天,传统的计票方式已经远远不能满足社会的需求。以往的民主选举过程中,选票的统计工作采用人工唱票的方式,进行记录和统计,这种方式费时费力,不
基于视频的运动目标跟踪长期以来都是计算机视觉、图像处理和模式识别领域中一个非常重要和活跃的研究课题。近年来,它的一个主要应用方面就是视频监控系统。在视频监控系统