基于数据动态分配的XML查询处理优化技术研究与实现

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:wai123414
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
XML作为一种结构化的语言,定义了Web上数据表示与数据交换的一种规范,越来越广泛地被应用。当今数据呈爆发式的增长并且形式复杂化、多样化,海量数据的XML文件处理显得越发重要。如何高效地处理海量XML数据在当下具有重要的意义和广泛的应用前景。目前处理大规模数据集的典型方法主要还是采用分布式处理,在云计算和与大数据处理中,Hadoop是一个典型的分布式处理支撑框架,使用Hadoop的MapReduce计算模型来进行XML的结构化连接查询处理,是一个重要研究问题。由于XML的结构特性,当今已经成熟的关系数据库领域的技术无法有效地应用到XML查询处理上,本文实现了一种原生XML数据库系统,包括海量XML数据的存储模型以及查询处理方法,并在此基础上对查询优化处理技术进行研究。本文首先对已有的一种基于MapReduce的XML结构连接处理算法,从数据分布的角度对MapReduce的数据放置和分区策略进行优化。查询处理过程包括两个阶段:Map阶段和Reduce阶段。在Map阶段中,根据XPath语句的使用频率,通过聚类的方法将关系紧密的文件放置在一起;在Reduce阶段中,通过曲线拟合的方法使得程序能够自动地估计出参数,把数据相对均匀地分配到各个计算节点中,达到最大化的效率;并进一步开展负载均衡研究工作,提高查询的效率。最后在DXQS上实现了优化算法,通过对优化后的系统进行实验评估,结果表明基于数据动态分配优化后的算法有效地提高了整体查询效率。
其他文献
反式翻译是细菌中普遍存在的核糖体拯救机制,其核心分子SmpB(Small protein B)和tmRNA一起修复翻译出错导致的核糖体滞留。此外,SmpB还可以调节双组份系统,对蛋白质进行质量控制,影响持留菌的形成,调节细胞周期等。本研究以一种新型的人鱼共患病原菌即维氏气单胞菌C4为研究对象,通过构建cDNA文库,利用细菌双杂交筛选SmpB互作蛋白,并以该互作蛋白为切入点,探索SmpB参与调控的下
扫除文盲,实现全民教育是全球教育议程中的一项长期而重要的内容。21世纪初,国际社会提出要在2015年将文盲数量减少50%的目标。为此,联合国制定“扫盲十年行动计划(2003-2012
随着我国经济的迅速增长,但城乡社会分化却愈发严重。教育是突破阶级壁垒实现社会流动公认的重要途径。相较于学校教育的重要性,著名的科尔曼报告则证实了家庭背景对子女教育具有更重要作用。本研究将问题聚焦于家庭背景与学生教育上,以父母教育卷入为主要变量,探究家庭社会经济地位对农村学生自我教育期望的影响,以及父母教育卷入在家庭社会经济地位与农村学生自我教育期望中是否和如何起到中介作用。本研究主要采用问卷调查法
随着我国隧道建设规模的快速扩大,隧道机械化施工技术水平急需提高。软弱围岩(IV、V级围岩)钻爆法开挖时,为保证围岩的稳定性,一般需要采用钢拱架进行初期支护。目前国内隧道
算子谱理论中的一个课题—关于Weyl型定理的变形和推广是近些年来的一个热门问题,已经取得了丰硕的研究成果.Hilbert空间上的框架是标准正交基的一种推广,是Duffin和Schaeffe
面对不断扩大的海量视频数据的处理需求,越来越多的企业选择使用HDFS这类分布式文件系统作为视频文件存储的载体,如何高效地分布式读取HDFS中存储的视频帧数据也成为了国内外
高压直流的稳定运行是其源源不断输送电能的前提,而近几年南方电网出现了多起因变压器合闸而导致的直流50Hz保护误动事件,严重影响了直流安全。而目前国内外对直流的谐波分析
随着我国西部大开发和高铁事业的发展,以及建设社会主义和谐社会保护人民群众生命财产安全的需要,以及出于环境保护和生态开发的需要,有关地下施工项目的风险管理越来越引起学术界和实践界领域的关注,尽管风险管理在土木工程施工领域不是一个新鲜课题。但是具体到黄土隧道项目的施工风险,由于此类工程项目施工环境的特殊性,造成的危害性也相对较大。因此,针对黄土隧道施工风险管理是当前急需解决的问题,也是促进当前中国社会
说话人语音认证技术正在迅速走进人们的生活应用中,然而,因为声音录制过于方便,语音认证容易引起冒仿、回放等攻击的风险。本文所基于的远程说话人认证系统,利用信道特征抵御
东南亚地区发育许多具有蒸发岩系的陆内盆地,盆地中又分布着众多不同类型的蒸发岩矿床,云南思茅盆地是其中之一。思茅盆地位于特提斯成矿带东南段,上白垩统勐野井组是该区域