MPP架构下的分布式SQL执行计划生成系统的设计与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:mhy8348
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今社会是一个信息急速膨胀的时代,随着企业对数据量分析要求的急剧扩大,简单的添加硬件资源不仅提高了成本而且还不能满足海量数据的大规模处理,原有的集群规模和处理数据能力已远远达不到人们的需求。因此本文提出了一种新的处理解决方案,论文中所描述的系统“Whale”使用MPP(MassivelyParallel Processing)无共享架构通过分布式SQL执行实现了海量数据对有效信息的提取,后端使用MySQL作为分析引擎,通过上层节点并行控制引擎的执行,并且应用分布式文件结构使系统存储具有可靠性。首先,为了解决现有海量数据分析商业产品的瓶颈和不足,本课题认真研究了国内外有关数据仓库、并行计算、分布式架构的情况,对行业发展现状有了一定了解,提出了就容错性、复杂性分析、可扩展性相关的需求分析和主要涉及技术。其次,本文以Windows作为开发平台,Eclipse作为开发工具,并部署在Linux集群上运行。通过对需求分析的满足提出了主从式架构和工作流程,系统被分为客户端和服务端,通过远程过程调用实现端到端的通信,客户端其主要任务是和用户进行交互获取请求返回结果,这一系列的过程中,生成SQL用户类型的查询计划是处理分配数据的核心步骤,所以其中对SQL语法解析、执行计划生成的完成是解决问题的关键。服务端有主守护进程和从属守护进程,主守护进程部署在中心节点上,从属进程部署在从属节点上。主节点从客户端接受执行计划并在从属节点指挥一系列数据分片并行处理,从属节点则通过存储引擎做实际的数据分析。Meta-Data模块集成于主节点上为整个系统提供服务,其中包括表模式及表中数据分片位置信息等。这是一种设计合理且轻量级架构,使用MySQL的不同存储引擎,使得在不同场景下对海量数据的处理都能得到满足,上层架构使得系统易于向外进行扩展并且通过添加新节点来适应不断增长的大数据。通过上述设计系统解决了复杂分析、可扩展及并行执行能力,满足用户对海量数据处理的需求。最后,论文从单元、功能、性能等方面对系统进行测试,并通过对系统相关成果演示,很好地展现了平台从部署到实施分析的过程,同时与其它类似的系统做了对比性测试,显示了本系统在海量数据处理能力上的优势。
其他文献
一个企业要想在市场中取得持续生存与发展,就必须有效的建立起属于自己的核心竞争力,这就存在一个识别与构建的过程。文章主要研究的是企业核心竞争力的识别,通过对企业核心
地震次生火灾是地震次生灾害中最易发生也是破坏性最大的灾种,起火原因复杂,蔓延危害严重。我国是地震多发的国家,对地震次生火灾进行全面综合评价是制定灾后防御对策最重要的途
民以食为天,粮食的储存是否安全关系到了国家和人民的切身利益。为了减少粮食储存过程中的损失,保障粮食的质量和安全,需要及时掌握粮食储藏过程中各种环境因子的变化情况,找出其
<正>一、乡村旅游的相关概念 1、乡村旅游的定义。现代乡村旅游是在20世纪80年代出现在农村区域的一种新型的旅游模式,尤其是在90年代以后发展迅速。旅游者的旅游动机明显区
会议
在同位素示踪注水剖面测井中,磁性定位测井曲线的形态能直观反映井下工具的类型,针对曲线整体形态相似而局部曲率、幅度、波峰个数不同的识别问题,提出了一种以曲线形态语义
随着我国机动车数量的不断增长,道路堵塞、交通事故等问题愈发严重。交通拥挤状态和旅行时间数据成为了交通管理者实施交通控制的重要依据,也成为了公众出行关注的主要信息。
对于大部分企业而言,存货计价方法的选择,其决定因素,大到其规模和管理状况,小到存货盘盈和盘亏制度等。同时,企业的会计核算又得益于其存货计价方法是否与之相配套的。通过
理论分析与仿真研究了一种采用光学倍频法产生四倍频微波信号的方法.利用带通光滤波器在光域内对M-Z强度调制器已调光信号频谱进行挑选与裁剪,选择出±2倍频信号,并在光电探
我国悠久的历史文化积淀及多民族的构成方式,孕育出了丰富多彩的传统文化。作为中华传统文化之一的传统音乐文化,目前在传承、保护以及发展状况上令人堪忧。本文从文化传承的
德国法学家拉伦茨的《法学方法论》一书理论博大精深,论述了法的诸多问题。其中,关于法律的漏洞和法的续造的论述有很大的理论和实践意义。拉伦茨把漏洞从范围上分为法律漏洞