面向OceanBase的分布式大表连接与优化

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:ping_ge
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代的很多应用中,数据规模达到PB、EB甚至ZB量级,特别是像秒杀和抢购等“现象级”的互联网应用。在这些应用中传统的数据库系统显得力不从心,因此如何管理和利用大数据已成为工业界和学术界共同关注的问题。由于硬件的更新和应用的驱动,NoSQL数据库和分布式数据库等技术得到了很大的发展。这些数据库部分解决了海量数据管理和利用所遇到的部分挑战,攻克了一些大数据应用的难题。但对一些复杂数据管理任务,如数据库上的大表连接,其表现还不太尽如人意。连接操作是关系型数据库最重要的算子之一。如何在海量、分布式情形下保证连接操作的正确性与可用性是一个非常具有挑战的任务,特别是对读写分离架构的数据库来说。为应对海量数据处理,可扩展性是分布式数据库研究的重点,如HBase,Shark都是基于这个目标而设计的。对偏向于OLTP的事务型数据库来说,分布式存储的数据可能导致效率非常低下的分布式事务。为了解决这一问题,近几年一种读写分离架构的数据库成为分布式数据库发展的一个分支。该架构把所有更新事务都放在一个节点上,形成增量数据,避免了分布式事务,同时把基线数据分布在多个节点上,实现了高可扩展性。OceanBase数据库就是这一架构的典型代表。该架构具有高效响应事务的优点,但同时也增加了查询操作的复杂性。每一次查询都要首先将基线数据和增量数据合并,然后返回合并后的数据。可以看出,当执行大表连接时,大量的网络传输会导致该架构的处理性能明显降低。为了优化该架构下大表连接的效率,本文以开源数据库OceanBase为基础,针对其架构特点,设计并实现了两种大表连接优化算法:SemiJoin和分布式排序归并连接。并在传统连接算法的基础上,针对读写分离架构的特点,对这两种算法进行了优化。本文的主要贡献如下:1.针对OceanBase数据库架构特点,设计并实现了SemiJoin算法。通过并行计算增加了对大表数据过滤的速度,同时减少网络上的数据传输量,从而极大地提高了半连接的效率。并通过一系列的对比实验证明了优化后算法的高效率。2.针对OceanBase数据库架构特点,设计并实现了分布式排序归并连接算法。该算法将连接属性分为多个范围,每个范围内的数据并行地做排序归并连接。特别针对增量数据,本文提出了“最大范围”算法,分别对待基线和增量数据,极大地提高了连接效率。并通过一系列的对比实验验证了优化后算法的高效率。3.提出了在读写分离架构下,不首先合并数据,而是对基线和增量数据分别处理的思路。这种思路不仅仅应用在连接操作上,而且对同类数据库的查询引擎进行优化时也可以借鉴上述思路。
其他文献
“海盗版康乃馨”事件折射出我国花卉出口存在的诸多问题和不足。本文分析了目前我国花卉产品出口的现状,并指出了我国花卉出口贸易存在的问题,最后提出了对我国政府和出口商
断陷盆地的沉积、沉降、拉张及其与断裂的关系对油气藏的形成与分布有重要影响。通过对前人该方面的研究成果进行分析,认为目前断陷盆地沉积、沉降、拉张、断裂等单一方面的
相对于行列式建筑布局形式,围合式建筑内部庭院空间的空气环境受外界环境影响较小,建筑物附近局部空间的空气温度介于大气与室内空气之间并且气流速度较小,这将使得供暖建筑
随着社会经济和工业的快速发展、城市化进程的加快以及人口的迅速增长,高大空间建筑物迅速增加成为未来发展的趋势,随之而来的大空间火灾防治问题也成为关注焦点。特别是近几
随着食品、农副产品加工的工业化不断推进,其产品干燥问题已越来越引起人们的关切。重点论述微波干燥、喷雾干燥、真空冷冻干燥、太阳能干燥的应用现状,并提出各种干燥技术研
印刷行业属于面向过程类的制造业,这类企业大多没有研发并由此产生专利技术,也很难建立相关的技术壁垒;另一方面,各种先进设备的大量引进,也仅能保持企业具有一定的市场竞争
通过分析四年全国棉花仪器化公证检验数据得出,棉花颜色与长度整齐度指标有很好的相关关系;同时分析得出棉花颜色级与长度整齐度也表现出了很强的关系。这将有助于理解与使用
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield