压缩XML数据的多查询处理技术

来源 :复旦大学 | 被引量 : 0次 | 上传用户:chamlea
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着XML文档在网络上的应用不断广泛,如何有效地对一个XML文档进行多查询处理这一问题变得更加广泛和迫在眉睫。然而以往的查询处理方法都没有考虑到XML文档自身的冗余性,事实上这一问题造成了查询处理的低效和网络带宽的耗费。因此我们在这篇论文中将探讨在分布式协作的服务器/客户端网络下,如何有效地克服XML文档自身的冗余问题,并高效地实现多查询处理。全文的贡献主要为以下几点: 对于查询文档,我们采用了针对XML文档的同构压缩技术,不仅有效的减小了文档和查询结果的规模,也保留了压缩文档的直接查询处理能力;对于多个客户端提交的查询任务,我们通过挖掘查询间的关系来提高系统的处理效率。 1.针对分布式协作场景下的XPath简单路径查询,我们设计了一种动态查询树的方法。该方法建立在XGRIND压缩方法的基础上,查询树构建和查询处理都以分布式的方式进行。然而这一方法不仅较大地依赖于客户端的稳定性,也受到XGRIND对查询支持的局限,还对中转客户端带来了较大的查询执行压力。 2.为了克服上述缺点,我们采用XPress方法对文档进行预处理,并改良了查询树的构建过程,并将其转移到服务器端。同时由服务器端直接负责查询收集、包含关系计算和查询处理过程。此外,我们将简单的查询树扩展为查询索引树,使之包含了查询结果的位置信息作为中转客户继续传播结果的索引。 3.为了进一步的处理客户端的不稳定,以及支持更加复杂的查询,我们在静态查询索引树的基础上研究了结构化查询索引树(SQIT)。在SQIT当中,所有复杂的查询都根据逆向数字编码的特性转化成为一种复杂路径结构(SXP)结构。而SQIT的构建在查询问包含关系的基础上还挖掘了父子节点之间的共享层次,并在查询处理之后将结果位置作为索引插入到SQIT当中。考虑到分布式网络中节点的不稳定性,我们在SQIT的方法上探讨了如何在客户端瘫痪、客户申请新查询、客户撤销已有查询这三种情况下有效地维护SQIT。 以上三个工作中,我们以循序渐进的方法对XML压缩文档上的多查询处理这一问题进行了充分地探索,通过在真实数据集和模拟数据集上的大量实验,我们验证了所提出的方法实现了分布式网络下由客户端参与查询结果发布的高效查询处理,同时通过XML压缩极大地节省了结果发布过程中的带宽压力。
其他文献
射频卡收费系统是射频识别技术的一个典型应用。常规的射频卡收费系统由于需要铺设专用通讯线缆(一般为串口通讯线),收费终端必需在上位机周围短距离半径内使用,因此限制了收
对系统界面进行精确建模,提高系统界面的开发效率和可维护性,一直是界面开发的难点。本文针对B/S信息系统用户界面的特点,研究、建立了界面需求分析阶段的界面需求分析模型和设
随着互联网的飞速发展,接入网络的用户数大幅度增加了,现有网络向下一代互联网升级的需要越来越迫切,以IPv6(Internet Protocol version 6)为核心的下一代互联网得到了广泛的关
学位
伴随着3G时代的到来,互联网和移动通信服务发展趋于交融,移动通信技术的不断更新也将推动全球移动商务应用市场的快速发展。面对用户的需求,移动商务服务内容也越来越呈现多样化
本论文主要研究决策树的算法及其在市场细分中应用。利用数据挖掘技术、挖掘市场细分数据,进行客户需求分析,发现市场细分需求规律,利于发现新的市场机会,开拓新的市场机会。
在当今时代,手机已经成了不可或缺的通讯工具了,不再像从前那样遥不可及,而是越来越多地走进普通老百姓的工作和生活中。无论是大街上,还是商场里,或者公司里,用手机通信的数
Leland和Paxson等通过对局域网和广域网的流量进行测量和分析,均发现具有统计上的自相似性。传统的网络流量模型在描述实际的网络业务时,忽视了这个重要特性。与传统的流量模
本文的研究内容是作者硕士学习期间参与完成的国家“863”资助项目“用于彩屏手机的液晶显示驱动控制芯片开发“的一部分,作者深入研究并设计完成了单片集成的TFT-LCD驱动控制
支持向量机是自上世纪90年代提出的一种基于统计学习理论的机器学习算法,与传统统计学研究样本产生的规律或样本数目趋于无穷大时的渐进性能不同,它更注重研究样本本身所提供的