分布式XML嵌套流数据查询技术研究

来源 :北京工业大学 | 被引量 : 2次 | 上传用户:xdh188
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
可扩展标记语言(eXtensible Markup Language,XML)是W3C提出的一种半结构化的数据描述语言,由于具有高可读性、可扩展性、自描述性以及跨平台等特性,在互联网上得到了广泛的应用。随着互联网技术的发展,互联网用户持续增加,网络应用的普及,互联网上数据规模正在不断的扩大。XML作为目前互联网数据的存储格式、数据共享和数据交换的主导标准,在许多应用中都有广泛的使用。近年来大数据和云计算的飞速发展,XML已经不再局限于单个文档,更多的情况是数据以流的形式出现,不能完全存放于一个文档之内。很多现有的应用中,XML的文档已经不能够一次性都放入内存中了。传统的XML处理方法依赖于将XML放入计算机的内存中,将XML构建成一棵树的结构,对XML进行查询。很明显,这样的查询方法已经不再适用于当前的XML查询。而使用XML流数据的方式,将海量的数据以流的形式出现,单边扫描进行查询处理的方式受到了研究人员的普遍关注,XML流数据查询也成为了数据领域的热点。XML流数据由于数据实时到达,需要实时处理,数据进入的顺讯不可控,而且是持续到来,没有结束,一旦数据处理完毕,除非特意保存,再次处理需要花费昂贵的代价这些特性,使得如何从海量XML流数据中查找到有用的数据成为一个富有挑战的问题。处理XML流数据的过程一般会使用例如SAX等的XML解析器对XML进行解析,使用例如XPath、XQuery等的XML查询语言对XML进行查询。为了保持占用较少的内存,处理完成后的XML元素会被丢弃。目前,虽然已经存在很多XML流数据查询的方法,但是这些方法在描述能力上稍显不足,有些不支持谓词筛选,有些的查询效率不高等。因此,研究一种高性能的功能丰富的针对XML流数据的查询方法就变得尤为重要。传统的查询方法不能够应用到流数据中,现有的流数据查询方法又有一些缺陷,根据这些问题,本文提出了一种基于图归约的XML查询自动机(GRAT),采用一种图结构来表示针对不同XML流元素的子查询任务之间的关系,通过图的归约变化来实现XPath查询。该方法提供了XPath查询的主要功能,并且能够在XML流数据一次遍历的过程中有良好的表现。由于图结构可以有多个前驱和后继节点,在处理上非常灵活,也便于扩展。另外,图结构的每个节点保存了查询中所必要的节点,每个节点的移动没有其他不必要的操作,因此效率上也很高。对于嵌套的XML流数据,普通的查询方法需要花费高额的代价进行处理,而对GRAT来说只需要添加一些节点即可。不同于树型结构的自动机和层次栈,使用图归约的查询算法使用很少的缓存,而每次查询不是扫描图结构的所有节点,而是指定的入口节点,也节省了很多时间。GRAT还将查询应用到了多个XML流嵌套的分布式环境中。实验表明,基于GRAT的查询算法能够高效地完成复杂的XML查询,具有高效,可扩展和实时等特点,能够更好地处理多源XML流数据处理的需求,并且流数据处理的吞吐量达到了较高水平。
其他文献
本文针对不相交多边形序列遍历问题的近似求解算法进行研究。不相交的任意多边形遍历问题是NP难题,因此本文研究目标是设计一个近似求解算法,对于不相交多边形遍历问题,找到
本文主要针对平面上相邻可能相交凸多边形序列的遍历问题进行研究,目标是寻找一条从起点s出发,按照它们事先约定好的顺序依次遍历每个凸多边形,最终到达终点t的最短路径。该
同一时期的壁画装饰图案拥有艺术创作的共性,这些共性表现在图案的总体布局以及单位元素的构图规则上,根据这些信息我们可以对大量年代信息不明确的图案进行分类。本文主要针
自组织链表是一种实用的数据结构,可以根据访问序列动态调整列表结构,适应访问模式,目的是减少平均访问时间并提高链表的性能。如果被访问的数据局部性较强,自组织链表能够比
随着互联网以及多媒体技术的飞速发展,使得数字视频在人们的日常生活中越来越普及。人们可以方便的使用手机等便携设备拍摄数字视频,在线视频播放网站如雨后春笋般涌现,大型
信息时代社交网络飞速发展,逐渐成为了人们生活不可或缺的一部分,加上全球定位系统(GPS)的广泛应用和用户对于兴趣点(point of interest)分享的需求,基于位置的社交网络(Loca
本文借助贸易引力模型和多元线性回归模型探究中国与“一带一路”的双边贸易和经贸关系现状,在最基本的贸易引力模型上扩展,加入建交时间、人口密度、距离等变量,以“一带一
自动问答系统的研究目标是正确地理解用户以自然语言描述的问题,进而高效、准确地反馈给用户答案。问句分类是问答系统的第一步,准确地对问句分类不仅能够有效地缩小答案搜索
2013年9月,《关于政府向社会力量购买公共服务的指导意见》提出,“到2020年要在全国建立较完善的政府购买公共服务体系”。党的十八届三中全会提出“政府的相关事务性服务可
随着广播技术的提高,数字化,网络化进程的推进,广大用户对广播和电视节目接收效果的要求也越来越高,这给广大工作在一线的无线工作者们增加了更多的工作量与工作任务。DF500A