基于缓冲的XML语义检索系统研究与设计

来源 :山东大学 | 被引量 : 0次 | 上传用户：wwj88888888

【摘要】

：

随着网络技术的发展，网上的资源呈指数级增长，如何快速、准确的从海量的web数据中查找到所需要的信息，是当今信息技术领域中研究的一个热点课题。传统的信息检索技术是基于文本

【作者】

：

宋春芳

【机构】

：

山东大学

【出处】

：

山东大学

【发表日期】

：

2007年期

【关键词】

：

XML 语义检索聚类检索单元频繁查询模式

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着网络技术的发展，网上的资源呈指数级增长，如何快速、准确的从海量的web数据中查找到所需要的信息，是当今信息技术领域中研究的一个热点课题。传统的信息检索技术是基于文本的检索，信息查询式的提交是以提交关键词为主。但是XML文档中有隐含的结构信息，XML标记明确表达了它的含义，搜索引擎就可以根据关键词和内容之间的依存关系进行准确定位，从而能够根据用户提供的关键词，返回正确的结果。所以，XML的结构化信息使得在XML文档中实现语义检索要比在传统搜索引擎中要容易得多。针对当前XML信息检索系统的不足和用户的需求，本文研究并设计了一个基于缓冲的XML语义检索系统：在检索的整体架构中加入一个缓冲结构——常检索模块，该模块主要记录用户的频繁查询模式，当用户提交关键词之后，系统首先在该模块中查找，如果能找到需要的结果则直接返回，否则才去检索模块进一步查找，大大提高了检索的效率；为更好的实现语义检索，本文在检索单元的问题上进行了研究，并提出了一种自动界定检索单元的方法。这种方法利用XML文档自身携带的语义和结构信息，根据具体的查询关键词，可以自行确定一个大小合适且符合用户语义要求的检索单元，称之为最小检索单元(Minimum Retrieval Unit，MRU)。这个检索单元既非整个文档也非单个元素，而是用户感兴趣并且符合关键字包含关系的元素集合或者XML子树集合，该集合可以看作是原文档的一个片断。确定好检索单元之后，要建立倒排索引。本文将信息检索中常用的方法——聚类应用于其中。利用XML文档的结构信息，使具有相同或相似结构的MRU形成一簇，使每一簇都可以由一个相同的特征词来描述，先为每个簇中的MRU建立索引，然后以此特征词为关键词再对所有的簇建立索引，形成一个二级索引结构。既可以快速有效的建立索引，又提高了检索效率。本文的主要贡献是：(1)提出了一种XML的频繁查询模式挖掘算法，利用该算法挖掘出用户的频繁查询模式，并储存在常检索模块，建立一个缓冲结构，提高了检索速度；(2)提出了一种基于路径信息的XML文档聚类算法，并把该聚类算法应用在索引结构的建立中，实验证明了该算法的有效性和可行性；(3)提出一种自行界定检索单元的检索方法，减少了计算开销，提高了检索的准确率。

其他文献

基于MPEG-7的纹理和颜色特征的图像检索技术

随着多媒体、网络技术的飞速发展，图像应用的日益广泛，基于内容的图像检索技术CBIR(Content Based Image Retrieval)成为当前多媒体检索研究的热点之一。它是直接采用图像内容

学位

基于内容的图像检索特征提取直方图MPEG-7描述符

企业应用集成中语义Web服务合成机制的研究

随着信息技术的迅速发展，知识传播的速度不断加快，企业经营环境和经营模式已经发生了深刻的变化。企业应用集成(EAI，Enterprise Application Integration)越来越成为各个企业所

学位

企业应用集成(EAI)语义WebUDDI服务合成

WAP事务层协议的有色PETRI网建模与分析

WAP事务协议(WTP)作为WAP协议体系结构中的一个重要部分,向会话层提供基于请求响应的分布式事务服务。由于WAP论坛将WAP协议规范以自然语言的形式发布,这样的好处是可读性好,

学位

WAPWTP协议有色Petri网协议建模

基于OWL的语义Web知识表示研究及其应用

以Web技术为代表的Internet极大促进了人类的知识传播和文化交流，改变着人类的生产和生活方式。然而，目前作为建立在标准格式化语言上的Web，并不具有良好的语义表示能力，这给基于

学位

语义Web知识表示RDFOWL

数据中心虚拟化环境下任务级流调度机制的研究与实现

学位

无线传感器网络中覆盖盲区发现与修复方法研究

无线传感器网络技术是近年来快速发展的一门技术,它涵盖微电子学,无线电通信和计算机技术等学科。它是由大量部署在监测区域内微型传感器节点通过自组织和无线通信所形成的网

学位

无线传感器网络覆盖空洞空洞检测极坐标空洞修复移动节点

面向用户需求的组合Web服务发现

近年来，随着电子商务和Internet的不断发展，Web服务已经成为最具有生命力的Web应用集成技术之一。对Web服务的相关的研究也得到顺利开展。具体来说，研究者们从Web服务的抽象和描

学位

Web服务发现用户需求电子商务

WLAN和UMTS漫游切换机制的研究和仿真实现

随着互联网技术的不断进步，Internet已经成为人们日常生活不可缺少的部分。同时由于移动技术的迅猛发展，手机、掌上电脑、笔记本电脑等便携式或移动设备大量应用，越来越多的人希

学位

MIPHNMMWLANUMTS切换

基于图像识别的标记阅读机及选举计票系统研究

在我国国民经济信息化迅速发展的今天，传统的计票方式已经远远不能满足社会的需求。以往的民主选举过程中，选票的统计工作采用人工唱票的方式，进行记录和统计，这种方式费时费力，不

学位

手写符号识别选举系统OMR图像识别网络

视频监控中目标跟踪技术研究

基于视频的运动目标跟踪长期以来都是计算机视觉、图像处理和模式识别领域中一个非常重要和活跃的研究课题。近年来,它的一个主要应用方面就是视频监控系统。在视频监控系统

学位

多目标跟踪目标状态分类目标遮挡遮挡预测

基于缓冲的XML语义检索系统研究与设计

与本文相关的学术论文