基于上下文的XML LCA关键字查询技术

来源 :复旦大学 | 被引量 : 0次 | 上传用户:pridekao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着XML (eXtensible Markup Language)数据已逐渐成为网络上信息的主要表示和交换标准,对于XML数据检索的需求越来越多。由于XML数据自身的特性,使得对XML进行数据检索面临诸多新的挑战和机遇。虽然诸如XQuery或XPath等结构化查询方式,可以将XML查询转换为复杂的语义表达并且获得精确的查询结果,然而很多情况下关键字查询方式更能够被大众所接受。比如,结构化查询方式要求用户了解其复杂语法规则并对XML文档信息有一定的认识。对于XML关键字查询,现有的方法多数都是基于最低公共祖先LCA这个概念。它们认为和查询相关的内容都在LCA(Lowest Common Ancestor)子树中而LCA子树外的信息则被认为和查询不相关。然而,事实上由于用户不了解XML文档的结构信息并且输入的查询关键字往往由于过短而缺乏足够的判断信息,使得基于LCA方法生成的结果往往未能把所有相关的信息包含在LCA子树中,从而导致用户对查询结果不满意。而这正是本文的研究动机和尝试解决的问题。本文的主要贡献如下:总结了现有的XML关键字查询研究现状,指出它们共同的缺陷,即都会忽略不在LCA子树中的节点,因此文中提出了基于上下文(context)的LCA节点的概念;使用结果扩充的思想来定义并获取上下文信息,所涉及的问题包括:如何确定当前结果是否需要扩充;如果当前结果需要被扩充,那么应该添加哪些内容。针对这些问题,文中通过分析日志获取有意义的上下文信息,提出了一个决策策略进行查询结果扩充的判断;提出了一个基于XML的TF*IDF方法,该方法针对需要进行查询扩充操作的实体计算其候选属性的权重,并根据上下文信息,扩展查询表达式,这里的候选属性是指对于一个LCA子树,那些没有被该子树覆盖的即不会返回给用户的属性节点。在与SLCA方法进行的比较实验中,从召全率、召准率和F-measure三个指标上验证了本文的工作可以有效改进以往基于LCA语义方法的效果,此外也验证了文中方法的时间复杂度处于合理的范围内。实验验证了本文的工作达到了预期的目的
其他文献
为了满足低成本、无主站快速独立组网的应用需求,北京邮电大学无线通信与电磁兼容实验室提出了一种SCPC-TDMA(Single Channel per Carrier-Time Division Multiple Access,称
随着互联网上诸如VoIP、实时视频等服务的部署,端到端的网络性能越发的引人关注,尤其在报文延迟和丢失方面。研究表明,路由协议对故障事件的反应特性,特别是路由收敛时间,对
随着互联网的蓬勃发展,各种新兴网络应用不断出现。这些应用在为用户提供各种网络服务的同时却消耗大量带宽,影响网络关键业务的正常进行。网络应用采用的新型加密方法和动态端
随着计算机技术的发展,嵌入摄像头的移动终端逐渐普及,相应的图像和视频应用也迅速发展,而移动终端屏幕尺寸导致的交互局限性使得图像和视频浏览管理系统更需要人性化、智能
计算机早已经大范围普及,智能手机等多媒体通信终端设备也在迅猛发展,伴随着3G(3rd Generation)牌照在中国的颁发,中国的电信产业也进入了一个全新的时期。人们对于移动通信
随着网络技术的发展,网络规模越来越大,而且网络用户及承载业务种类与日剧增。用户需求不仅仅是网络可达性,而是针对不同业务种类从经济、性能方面提出不同的需求。传统互联
智能交通系统(IntelligentTransportationSystem,简称ITS)是将先进的无线通信技术、传感器技术以及计算机技术等有效地应用于整个交通运输网络,从而建立起一种在大范围内、全
搜索引擎技术给人们的生活、工作和学习都带来了非常大的影响,随着互联网上信息的不断丰富,人们在信息筛选上需要付出的时间也越来越多,如何应用语义匹配技术来优化搜索引擎
包分类问题是路由器、交换机等网络核心设备的关键问题,同时在高速防火墙、高速入侵检测等系统中也具有重要作用。下一代互联网提供的各种增强服务,如不同级别的服务、安全网关
挖掘机称重技术在工程中非常重要,准确的称重保证了货物装载和卸货过程中快速、有效。挖掘机在其工作过程中往往没有在线的计量装置和设备,工作人员的工作量计算常常以车次计量