分布式非事务列式存储引擎的设计与实现

被引量 : 1次 | 上传用户:atian_net
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着网络技术的不断发展,接入网络的方式不断优化,越来越多的用户数据出现在互联网上。面对这种井喷式出现的数据,当前业界的大部分数据分析系统都还是传统的基于磁盘的模式,虽然很多系统已经在分布式方面做了极大的改进,但这种架构本质上存在着计算速度慢、CPU资源利用率低、导入效率低下等问题。针对这些问题,本文结合当前国内外的研究现状和发展态势,分析现有数据仓库系统的架构及特点,再根据自身项目的具体需求,设计并实现了内存数据存储引擎(Memory Database Engine,MDE),它能为企业部署一个海量数据的高速处理平台,提供一个实时响应、高可靠、高伸缩性的分布式数据仓库系统,可以更好的支撑上层的各种分析方法。使得企业能从繁杂冗余的数据中极快的得到清洗过的数据,尽早的应对变化多端的市场。本文主要工作与创新点有以下几点:1.设计了内存数据存储引擎的系统架构。它基于列式存储的模型架构,数据按列存储能够更好的支持数据压缩,并且在查询时的效率更胜行式;同时,采用双机热备、高可用集群等机制保证了高可靠性。2.设计了能够高效压缩和快速增量的数据结构来存储数据仓库的数据,在节约内存资源的同时,提高了计算效率。3.网络IO选型采用epoll异步事件驱动模型,配合内存操作,效率数量级的提升。磁盘IO方面,将利用线程池模型处理异步操作,增加系统的并发处理能力。4.系统提供大部分数据库物理计划执行的接口,给上层提供处理过后的数据,减少网络传输和解析调度节点的资源浪费。5.动态分配任务,中控节点实时掌握各节点的状态信息,新的请求将根据负载状态被分配到合适的节点存储和计算。同时系统会进行自动的负载均衡,负载过大的节点在满足条件后将会自动迁移一部分数据到另一个轻负载节点上去。通过功能和压力测试,结果表明本系统能够对海量数据进行有效的存储和读取,能够极大的缩短计算响应时间,能够实现系统的负载均衡,满足内存存储引擎设计的初衷。
其他文献
目前,两岸关系的发展面临"南北失衡"的突出问题,两岸的交往主要集中在与北台湾的交流,南部台湾逐渐成为两岸交流的短板。因此,如何推进中南部台湾与大陆的交流合作,使两岸关
<正>一、引言非财务指标是相对财务指标而言的,它可以有效弥补传统的财务指标在评价企业业绩时的不足和缺陷,是企业业绩评价体系的一个重要组成部分。财务指标主要是通过企业
为了满足计量供热系统热源超量调节和超前调节的要求,避免自主调节用户加热过程的热滞后,实现及时、足量、节能运行,笔者引入同类用户及其室内设计热负荷所占总热负荷的逐时
以投入产出为基本原理,利用1990年到2010年的相对数指标,"按三次产业分的就业人员比率"和"三次产业的贡献率",通过deap version2.1研究了三次产业的人力资源结构对三次产业贡
伴随着信息化技术的兴起和发展,信息化技术的分支——信息共享和网络数据库得到广泛地运用。现代企事业需要生存和发展就必须进行信息化技术建设。越来越多的企事业单位将所
教师树立高尚的师德,必须重视教师的师德修养,具有高尚的教师职业道德。首先必须要有一颗热爱学生的心,才能使学生“信其道,乐其道”,爱的教育是推动教学成功的巨大推动力。
<正>"ERP"即"Enterprise Resources Planning——企业资源计划",源于上世纪80年代初提出的MRP-Ⅱ(Manufacturing resources Planning,制造资源计划),20世纪90年代在欧美得以
<正>根据我省《关于组织开展全省职业学校"五课"教研工作和"两课"评比活动的通知》精神,市教研室在各辖市区初评的基础上进一步进行了筛选,评比的主要内容为教学设计和说课。
<正>我国对环境会计的研究始于上个世纪90年代初期,以葛家澍教授发表的一篇关于绿色会计理论的文章为标志,揭开了我国学术界环境会计研究的序幕。迄今为止,对环境会计的研究
正当防卫是法律确认的公民同违法犯罪行为作斗争的一种法律手段,是公民的一种特殊权利,也是公民的一项道德义务。公民要有效地运用这一法律手段,正确地行使这一特殊权利,履行