面向OLAP的分布式键值存储引擎

来源 :电子科技大学 | 被引量 : 2次 | 上传用户:yunpiaosifang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现如今,企业信息系统产生的数据量急剧增加,用于企业数据管理的联机事务处理系统的分析处理能力差强人意。在此应用背景下,数据仓库技术获得了长足的发展,数据仓库技术于20世纪80年代提出,20世纪90年代从最初的探索阶段进入了实质的使用阶段。联机分析处理系统,即OLAP系统,是数据仓库技术中最主要的应用之一,尤其是随着大数据时代的到来,OLAP系统得到了越来越广泛的应用。OLAP系统擅长针对大数据量进行复杂的多维查询处理,将分析处理所获得的潜在的价值信息以一种直观而易懂的形式展示给相关的决策和分析人员,方便他们了解对象的需求,制定切实可行的方案。在OLAP系统中,数据存储系统扮演着极其重要的角色。存储系统作为其底层基础系统,它的吞吐量,访问延迟,可用性和可伸缩性如何将直接影响OLAP系统的数据规模,性能;而这也将进一步影响数据查询处理所得结果的实时性和有效性。本文以自行设计和研发的面向OLAP应用场景的分布式键值存储引擎TIMDB为背景,详细阐述了其设计思想,关键技术和实现方法。T-IMDB系统将内存作为其永久性存储介质,磁盘等二级存储设备仅用于存储备份数据。它首先通过采用基于日志结构的内存管理机制和两阶段日志清理与资源回收方案,有效地减少了内存碎片,提高了内存的使用效率,使得系统在内存利用率较高的情况下仍能保持较高的吞吐量和较低的访问延迟。其次,T-IMDB引入一套可伸缩的分布式索引方案,该方案在Key-Value数据模型基础上支持范围查询,同时保证索引和被索引的数据在客户端角度观察是一致的。最后,T-IMDB对外提供强一致性,使得系统的数据多副本架构对客户端而言是透明的,简化客户端的业务逻辑,方便外部系统的接入。T-IMDB系统采用基于Epoll的异步事件驱动网路编程模型,有效地提高了网络传输效率,增加了系统的服务能力;同时它借用了面向服务架构的思想,将网络通信和业务逻辑充分解耦,使其具有可扩展性。测试证明T-IMDB系统能正确执行所需功能,并且性能优异。
其他文献
决策树算法是应用最广泛的机器学习算法之一,它基于一个无次序、无规则的样本数据集,试图从中提取出描述此样本数据集的数学模型。传统的决策树算法只能处理属性为离散值的样
在普适网格中移动设备作为资源被发现和管理是普适网格系统研究的重点之一。本文先提出了一种普适网格的系统结构,详细论述了移动设备作为资源在系统中被发现和管理的方法,分
自然界中存在的大量复杂系统都可以通过各种各样的网络进行描述。近年来,复杂网络的研究受到了越来越多的关注,并渗透到从自然科学到工程科学甚至社会科学的多个领域。研究所
学位
聚类分析涉及到统计学、数据挖掘、机器学习和图像处理等多个领域,人们对它研究热情日益高涨。在聚类算法中,基于模糊划分的模糊c均值算法(FCM)是一种重要的算法,它有着深厚
随着人类活动和国家建设的发展,人们对气象的需求越来越高,气象的重要性越加突显,气象灾害对国民生产和生活造成的损失也相当严重。为了提高气象服务的质量,减少和预防气象灾
随着通信网络技术和集成电路设计的高速发展,分布式嵌入式(Distributed Embedded, DE)系统向大规模复杂异构的方向发展。与此同时,网络安全问题也受到越来越多的人关注,由于
随着Internet的日益普及和快速发展,对等网络(P2P)系统因其良好的可扩展性和高效的查找特性,受到了越来越多学者和技术人员的青睐。如何高效的在P2P系统中查找到相应的资源节
互联网时代的快速发展带来了大数据时代,大规模数据的高效处理对生产和实践意义重大,传统的计算模式已无法满足海量数据的处理需求。2004年,在Google发表了GFS和MapReduce的
歧义是自然语言处理中经常遇见的一种语法现象。当我们在对一个句子做句法分析的时候,常常会面临这样一个问题,即一个短语或者子句可以附着在两个或者两个以上的句子成员节点
自20世纪90年代发展起来的无线传感器网络(Wireless Sensor Networks, WSN)已被广泛应用在环境、医疗及军事等领域中。在许多相关理论和应用研究中,节点定位技术和覆盖控制技