大规模分布式内存列式数据库编译执行框架

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:zhangduanhua0505
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据规模的爆炸性增长,人类创造了分布式计算系统,实现结构化数据的处理,即联机分析处理。已有的分布式计算系统,如分布式内存数据库,普遍采用批处理方式处理海量数据,同时使用更适合批处理计算的存储格式存储数据,即列式存储。同时内存数据库使用更大的内存空间弥补传统数据库的磁盘“I/O墙”问题。为了进一步提升计算能力,已有的批处理方式的“内存墙”问题需要被解决。使用编译技术动态生成计算任务的可执行代码的方法,能进一步提升分布式内存数据库中单机和系统总体的计算能力,也对计划生成和执行提出了新的要求。该方法一方面能使用运行时信息生成精简和高效的可执行代码,提升代码局部性;另一方面能融合多个计算任务减少内存数据读写,提升数据局部性。后者也适应于非易失性内存这一新的存储介质。本文基于分布式列式内存数据库,研究通过动态生成执行代码的技术提升计算效率的方法及对应的计划生成和执行方法。主要工作如下:1.研究、设计和实现了基于大规模分布式内存列式数据库的编译执行框架。该框架将计算任务的执行计划图转换为底层的计算原语(算子),并能将多个计算原语的处理融入同一个函数的可执行代码中。该框架支持自定义其他计算原语以在生成代码中添加特定的计算功能;2.设计并实现了基于编译执行的数据库执行框架以及各一套计算原语。该执行框架负责任务的接收和执行调度,以及对生成代码的管理。其在接收分布的执行计划后,利用基础的计算原语将其编译为可执行代码执行;3.研究在分布式环境下的执行计划节点的融合的策略。该策略将相关计算功能融合提升数据局部性进而提升相邻执行计划节点的执行速度。最后,本文对执行框架和编译执行框架组成的系统进行功能和性能测试。测试表明编译执行技术生成的代码具有明显更快的执行速度,同时融合后的执行计划节点的生成代码通过减少内存数据传输明显减少了执行时间。
其他文献
国际贸易分工理论反映了特定时期国际贸易分工的发展历史和特点,解释了各个时期出现的贸易分工现象,每一种新的理论都是对原有理论的继承与发展。产品内贸易分工理论的发展则
国内很多学者主张参考商业年金产品的设计改革我国现行强制性个人账户养老金的计发办法。针对这种提法,借鉴商业年金产品的设计,结合个人账户的积累和发放过程,对我国强制性
"三农"问题是建立和谐社会的基本问题之一,也是当前社会发展中比较突出的问题,其本质就是农民收入增长问题。基于河北省的省情,从农民收入的整体增长情况、收入结构以及城乡
随着国家经济和信息技术的不断发展,多行业融合规划建设已成为未来的主要发展趋势。面对中国工业2025——建设智能制造工业强国的宏伟目标,采用现代高新技术和自动化设备结合
AREG(Amphiregulin)是上皮生长因子家族中的成员;AREG结合并激活上皮生长因子受体EGFR,促进EGFR形成同型二聚体或者异型二聚体,引发细胞内下游信号磷酸化,进而调节细胞的增殖
我国宪政建设的基本路径应当是:完善现行宪法,从政治宪法走向宪政宪法;建立完善的违宪审查制度,从宪法实施的制度缺位走向制度保障;坚持和改善党的领导,从党领导下的宪政走向
以周麦18、百农207和百麦196种子为试验材料,通过发芽试验及种子过氧化物酶(POD)、超氧化物歧化酶(SOD)、过氧化氢酶(CAT)活性的测定,来研究小麦种子活力与其酶的关系,结果显
原始创新能力不足是制约制造业高质量发展的重要瓶颈之一。我国在跟跑阶段形成的研发机制已不能适应制造业向并跑、领跑转型的创新需求,需要从研发投入结构、创新主体结构及
设Snk=∑ni=1ik(k=1,2,…).Pk(x)为经过点(i,∑ij=1jk)(i=1,2,…,k+2)的k+1次Lagrange插值多项式,通过探索发现并证明了Snk=Pk(n),并给出了数值例子。
体育游戏是游戏的一种,也是体育教学中的一种重要手段。游戏在大中小学的体育教学中普遍运用,它可以充分提高学生的学习兴趣,使学生身体素质和智能技巧全面发展,也可以启发调