基于NoSQL的分布式存储系统相关算法改进与性能优化

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:fei5051484
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络存储系统的快速发展,基于分布式存储的应用正经历着前所未有的高速发展,需要存储大量数据的网站、云服务等得以普及。然而这些数据目前集中部署在单节点存储设备上,随着数据规模的扩大,单台主机的资源并不能容纳大规模的数据。由于后续扩容成本昂贵,因此迫切需要引入分布式存储系统来解决大数据的存放和访问问题。同时随着电子商务的发展以及Web2.0技术在网络应用的广泛应用,传统的关系型数据库不能满足对当今数据的存储要求。NoSQL数据库是对关系型数据库的补充,通过简单数据模型、元数据以及应用数据分离和弱一致性等技术,实现对大数据的有效管理。基于以上,本文主要研究基于NoSQL的分布式存储中的数据分布、数据压缩和及存储格式问题,在分析总结国内外相关研究的基础上,提出了基于Redis改进的一致性哈希算法和基于Hive的性能优化研究,并以Redis在排行榜问题中的应用为背景,对Redis进行了有效的性能分析与评测。主要的研究工作如下:(1)基于Redis改进的一致性哈希算法,为了解决分布式存储系统中的数据均衡问题,提高算法在应用实践时的可靠性、可用性等特性。通过对Redis存储节点进行逻辑划分成一个组,组内采用主从模式可以提高分布式存储的一致性和可靠性,并分析了同一个组内不同读写策略的数据一致性。当组内主节点宕机时,利用从节点的备份数据以及主从切换可以及时对外提供集群服务。通过实验证明,该算法能有效地降低读写操作平均响应时间和提高系统吞吐量,使分布式存储系统负载更为均衡。(2)基于Hive的性能优化研究,为了解决分布式存储系统中文件系统的数据压缩和存储格式问题,通过对MapReduce作业调度和Hive性能调优两个方面对Hive的性能进行优化研究。对于MapReduce主要从编程模型切入,分析其执行过程,并从map端、reduce端进行参数调优。接着从Hive框架角度入手,分别从分区表和外部表以及常用数据文件的压缩、行式存储与列式存储等方面进行深入研究。实验结果表明,snappy压缩、orcfile/parquet存储格式可以对于列式查询场景提高查询效率。
其他文献
缓冲区溢出攻击是利用缓冲区溢出漏洞所进行的攻击。缓冲区溢出是指当计算机向缓冲区内填充数据时超过了缓冲区本身的容量,溢出的数据覆盖在合法数据上。缓冲区溢出是一种非常
图像数据包含着丰富的信息,但相应的数据量也非常大。因此,在实时应用中,对图像的检索具有了更高的要求。现有的基于内容的检索方式(CBIR),虽然检索效果相对较好,但需要对图
选举是当今公民实现民主的重要方式,相比于传统选举方式,电子选举以密码学为基础,可以有效避免在各个环节中出现徇私舞弊现象,并且通过使用高效的计算机来对选票进行最后的统
随着信息化建设的深入和网络技术的发展,相当数量的企业积累了大量的存储在不同平台、依赖于不同数据库管理系统的数据和众多非结构化数据(如XML文档、文本文件等)。如何通过
随着互联网应用的飞速发展,数据量的积累也越来越多。如何更高效快捷地从海量数据中得到有价值的信息并将其应用到相关领域中,成为当前范围内急需解决的前沿问题。为了解决这
隐藏在普通搜索引擎的背后,需要用户提交表单查询并从后台数据库中返回结果页面才能获取到的信息,称为Deep Web。当前对Deep Web数据抽取的研究是一个比较热门的话题。随着页
XML以其可扩展性、灵活性、平台独立性、简单性、规范性等特点使其在互联网中的应用越来越广泛,尤其是在网络领域表示数据方面也越来越重要。所以,迫切地需要寻找一些有效的
随着社会的进步与发展,玻璃制品在越来越多的行业起着不可或缺的作用,作为一种需求量日益增加的材料,在生产过程中对其的质量控制显得尤为重要,它不仅仅能够节约成本,提高市
21世纪以来,网络迅猛发展,各种涉及网络的犯罪成爆炸式发展。网络犯罪取证困难,案件线索无法查证,给防范打击工作带来了严峻挑战。实施网络犯罪肯定会留下犯罪电子特征信息,而公安
近几年随着“211工程”和“教育振兴行动计划”的实施,我国高等教育进入快速发展时期。2009年我国高等教育的毛入学率达到24%左右,实现了由精英教育向大众教育的过渡。高等院校