一种混合分析型数据库引擎的设计与实现

来源 :复旦大学 | 被引量 : 0次 | 上传用户:bj4587
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
我们生活在大数据的时代!在当今瞬息万变的商业社会,这些海量数据的快速分析和有效挖掘对商业决策制定提供了重要的依据,有时可能决定企业的命运。2006年云计算技术提出后,很多企业选择廉价的低端商业机而非昂贵的高端机来运行它们的分析数据库,这些机器部署在一种无共享的MPP架构上,这种架构经常虚拟化在一种公有或私有云上。这种环境下主要有两种技术来完成数据分析:并行数据库和基于MapReduce类型的系统。前者的支持者声称并行数据库的高性能和高效率使它很适合这样的分析工作;后者的支持者则认为MapReduce系统更好的扩展性、容错能力和灵活性是更合适的选择。耶鲁大学的HadoopDB提出了一种基于MapReduce的新型并行数据库实现方法,但是它具有以下缺点:(1)它没有独立的查询分析引擎,不能优化查询计划;(2)它的数据装载没有实现自动化,需要手动分区,分区信息和其它元数据信息存储在XML文件中,效率不高;(3)它的连接算法假设进行连接的两表处于最理想的状态,即两表的分区都在同一节点之上,但现实并非如此。针对这些缺点,本文提出了FlexDB。FlexDB利用MapReduce的并行计算框架作为通信层,调度和协调集群中各节点的计算和通信,在保证性能接近并行数据库的前提下引入MapReduce的扩展性和容错性。实验结果表明:(1)FlexDB加入分析器、优化器、执行器形成一套完整的查询分析引擎,可以更高效地处理复杂的查询;(2)FlexDB的元数据存在一个专门的Catalog数据库中,给整个查询过程提供支持,装载数据和分区都实现了自动化;(3)FlexDB提供了表的协同水平分割存储,可以实现需要连接的两个表存储在相同的节点上。这些工作使得FlexDB比HadoopDB更具有实用价值,成为一种新型的、易用的、高效的数据分析工具。
其他文献
图像分割是图像分析,识别和图像理解的基础,是图像处理到图像分析的一个极其关键的步骤之一。正是由于图像分割的这种重要性,国内外一些学者对其进行了大量研究,同时也提出了
在大数据时代,如何利用好数据潜在信息价值,成为商业巨头能否实现经济飞速发展的重要因素。准确的目标预测,对于国民经济的发展具有不可估量的意义。在商业、经济和其他领域
随着国民经济的不断发展,环境保护和资源的有效利用也越来越受到人们的重视。煤炭循环经济是指煤炭在开采、运输和加工等过程中进行的减量化、再利用、资源化活动的总称。煤
变压式皮肤听声器的原理是把外界的声音信号转换为电压信号,通过刺激皮肤来达到“听”声的效果。目前变压式皮肤听声器已研制成功,在不需要手术和不产生任何副作用的情况下,能够
由虚拟现实延伸出来的增强现实(augmented reality, AR)技术已逐渐发展成为一门独立系统的学科。三维注册是实现AR的关键,它决定了虚拟目标如何准确地与真实场景进行结合。传
人脸识别是生物特征识别技术的一个重要分支,被广泛应用于公共安全、身份认证、机器视觉等领域。人脸图像是典型的非线性高维数据,容易受到姿态、光照、年龄等因素的影响而变化
基于RGB通道的单视角动作识别容易受到诸多因素的干扰。例如:光照变化、视角变化和个体动作差异等因素。这些因素限制了其进一步的发展和应用。为了减少这些干扰因素的影响,
随着计算机信息技术和互联网的高速发展和普及,全球对自主学习和终身学习的需求也越来越高。人工智能和网络等技术的发展以及在教育领域的运用,使教育观念、教学方法和手段等
数据规模的爆炸性增长给传统计算机技术和串行算法带来挑战,同时也带来了新的发展机遇。“大数据”顺应而生。大数据使串行化关联规则算法需要重写,串行算法的并行化迫在眉睫
本文主要研究的是一种基于ARM的电能实时监测系统,该电能质量监测系统对电能质量进行远程监控以及事故预测,为改善电能的质量,制定相应电能计划提供有力依据。本文首先介绍了电能质量的研究背景和意义,分析了国内外电能质量监测系统的研究现状以及未来趋势。1、根据电能质量监测系统装置的市场调研以及设计要求,提出了一种基于嵌入式ARM和linux的电能质量监测系统,监测系统的控制模块以ARM为核心,其上运行嵌入