非关系型数据存储与管理系统性能优化研究与实现

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:cqyxp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代所处理的数据规模、时效性、复杂度以及价值挖掘,对大数据存储与管理系统的扩展性、访问性能、可用性及可靠性都有着极高的要求。近年来,面向大数据的非关系型存储与管理(NoSQL)系统因其高效的横向可扩展性及高吞吐率等性能优势,在很多大型互联网服务商的大数据存储与管理中发挥了关键作用。然而,由于根据各自应用需求而研发的众多NoSQL系统往往各自为营,使得大部分NoSQL系统例如HBase深受上层应用特性影响,需要通过提供大量可配置参数来调配各类软硬件系统资源,而默认配置通常仅获得系统平均运行时性能。如何依据应用负载特性来调优各项资源配置参数,进而实现系统性能优化成为了当前NoSQL系统管理中的重要挑战;而在追求时效性的内存NoSQL系统例如Redis中,当工作数据集完全置于内存中后,数据访问中的存储I/O瓶颈得到了极大缓解,但在高并发访问需求下的网络性能瓶颈凸显。同时,为了保障内存NoSQL系统中的数据集安全性,其持久化过程依然面临严峻的存储I/O瓶颈。如何在当前高速网络及存储技术驱动下平衡网络与内存、存储与内存之间的I/O性能差距,成为当前内存NoSQL系统性能优化中的又一重要挑战。本文工作将针对上述挑战,集中在面向大数据的NoSQL系统性能优化方面展开研究与实现,接下来将具体论述本课题研究中完成的主要工作:  (1)提出了一种NoSQL系统中调优可配置参数的数据集导入优化机制  文中从资源管理角度出发,研究了HBase系统数据集导入负载场景中基于默认配置可能导致的性能问题。并通过实测案例给出了默认配置下HBase系统中存在的几点问题:各工作节点间数据集导入不均衡、集群环境及工作节点中资源利用不充分、客户端及网络资源利用不充分等。针对上述问题,文中提出了基于调优可配置参数的解决方案,通过优化HBase系统中数据集导入负载性能相关参数,制定了面向HBase系统数据集导入的资源配置优化规则。实验结果表明,文中提出的优化规则能够使得HBase系统数据集导入负载性能相比于默认配置获得有效提升,可在不同负载压力下获得2–3.7倍吞吐率加速比。  (2)提出了一种NoSQL系统中负载感知的可配置参数优化管理框架  大多数尚未具备系统运维经验的NoSQL系统管理员及上层应用开发人员通常使用系统默认参数配置,仅获得平均系统运行性能。文中针对NoSQL系统提出了一种通用的参数优化管理框架xConfig,其用户可以选取并分析调优一系列性能相关的可配置参数来生成典型负载场景下的优化规则。基于该框架实现的参数优化管理系统可以集成并共享已生成的优化规则,并依据集群运行状态及负载场景自动匹配相适应的优化规则,以使目标NoSQL系统获得优化后的运行性能。文中基于xConfig框架在HBase系统上实现的原型系统HConfig验证了所提调优策略的有效性,运用了优化规则的配置比默认配置在典型负载场景测试中取得了明显吞吐率性能提升,也较好地维持了HBase系统的高横向可扩展性。  (3)提出了一种内存NoSQL系统的数据集持久化及恢复机制评测方法  随着内存容量的增加以及价格的下降,给构建内存NoSQL系统提供了硬件支撑。而基于易失性主存系统构建的内存NoSQL系统中,为保障数据集安全性并提供可持续性的数据服务,工作数据集的持久化及恢复成为了其中关键功能组件。文中针对内存NoSQL系统中常见数据持久化及恢复机制展开分析并进行了详细测试评估。具体基于Redis系统通过持久化相关配置参数实现了无持久化(NoSave)、快照(Snapshot)、日志(AOF-No/Everysec/Always)持久化测试场景,以及通过快照(Snapshot)、日志(AOF-Rewrite/NoRerite)文件完成数据集恢复的测试场景,并结合实时监控数据分析了持久化及恢复性能以及资源利用情况。文中还对比了不同持久化及恢复案例的优势与不足,并指出了各机制下测试实例中出现的性能瓶颈。  (4)提出了一种基于I/O栈的内存NoSQL系统优化模型以及基于高速网络与存储的性能优化技术  文中针对大数据环境中力求时效性的内存NoSQL系统进行了基于I/O栈的系统性能分析,并给出了形式化模型。然后结合当前显著提升网络I/O性能的RDMA技术以及基于新型存储介质的高速存储技术,来分别优化内存NoSQL系统中容易出现性能瓶颈的网络I/O栈与存储I/O栈。具体实验评估中针对典型内存NoSQL系统Redis进行了基于网络性能提升以及存储性能提升的优化测试,实验结果验证了高速网络和存储I/O能够有效优化内存NoSQL系统吞吐率等性能。
其他文献
高性能计算对科学技术的进步、经济社会的发展起着不可估量的作用,除对性能的追求以外,高能效在高性能计算领域也受到越来越多的重视。面向应用的定制计算是提高计算效能的有效
随着普适计算和物联网的发展,衍生出一类基于位置服务的应用。目前基于位置服务已得到了迅猛的发展,并广泛应用于场馆定位导航、移动互联网应用、资产管理、人员定位、物流管理
我国是一个地质灾害频发的国家,每年地质灾害给国民经济和人们生活带来的创伤是难以计数的。地质灾难不仅给民众的生活安定带来了严重的影响,更严重的牵涉到国家的重大经济决
学位
耦合器是地球系统模式重要组成部分,用于连接各个分量模式。中科院地球系统模式CAS-ESM中使用的CPL耦合器在增加新类型的分量模式、添加耦合物理量、设置耦合频率等环节需要对
现代信息化社会,数据呈现爆炸式增长。这会带来三个方面的严重问题,即存储和管理数据的成本越来越高,数据备份和恢复的时间越来越长,以及数据中心的能耗越来越严重。重复数据删除
体光照技术在可视化和影视特效中有着广泛的应用。不同于一般的体绘制,体光照算法是一种计算体数据全局光照的技术,能够模拟光在体数据中真实散射的情况。通过该技术可以模拟基
物体分割是许多计算机视觉和图像处理问题的重要处理步骤,应用在物体识别、场景理解、图像编辑等相关任务中。因此,物体分割具有重要的研究价值和意义。物体类别的类内多样性,同
倒排索引是Web搜索引擎的核心数据结构,也是目前为止被认为最高效的大规模文本索引方法。随着互联网络的发展,数据规模和用户数量相比早期都有了质的飞跃,这给Web搜索引擎的性能
虽然人脸识别技术现已广泛应用到许多场景中,比如安全监控、辅助相机聚焦等,但人脸识别技术仍然面临着许多挑战。其中一个实际应用中经常会遇到的问题是:训练与目标的人脸图像