论文部分内容阅读
随着现代社会的飞速发展,海量数据迅猛增长,这极大刺激了对于存储的需求。而随着计算机技术的发展,云存储作为新一代存储技术,具有大容量、高效、经济、可靠的特点,这些使其成为了计算机基础性技术之一。学术界、工业界对此投入大量研究,产生了很多科研成果和商业应用。但是,云存储技术也面临很多亟待解决的技术难题和挑战。本论文主要关注云存储的系统资源利用率低、系统内部负载不均衡、系统建设方案决策困难等三类挑战。这些问题和挑战是基于不同的应用环境需求产生的,而云存储系统对应相应的需求分成:私有云存储系统、公有云存储系统和混合云存储系统。本文针对这三类系统面临的问题和挑战,在基于现有的相关工作和成果上,围绕着系统资源利用率优化、异常热度数据识别、过载设备的数据重定位、系统设计决策等一系列问题开展研究。通过调整数据布局来提高系统资源利用率,并定位系统中的异常数据,并将其重新放置来提升系统负载均衡度、使用经济学模型辅助系统的设计和决策等方式来相应的解决上述面临的问题。以上各个研究方向和内容相互联系并相互作用,但最终的实现方式都是围绕着数据布局机制来实现的。本文主要的研究内容和创新点总结为如下三个方面:公有云存储系统中的数据布局的研究,目标是使得系统内的设备负载更加均衡。公有云存储系统是一个大规模的异构系统,系统中设备的数据分布和数据访问量时常是不均匀的。在拥有海量数据和大量设备的系统规模下,一般的优化模型都会因其管理算法复杂度过高,难以有效的处理数据布局问题。本文首先采用分类算法先将系统内的数据和设备相应分级来解决不同的数据的布局均衡问题;其次采用改进的计数布隆过滤器算法——多层次计数布隆过滤器算法(MlCBF,Multi-level Counting Bloom Filter)来定位和识别热度数据;最后采用改进的一致性哈希算法一—多选择一致性哈希算法(McCH,Multi-choices Consistent Hash)来重新定位异常数据,从而为公有云存储系统面临的一系列问题提供了可行的方案。私有云存储系统中的数据布局研究,目标是优化系统资源利用率,降低系统成本。由于私有云存储系统主要应用于企业内部,其需求的主要特点是稳定、低成本、大容量和较低的吞吐性能。本文提出了一个针对私有云存储系统的资源优化模型,并使用了启发式算法对其求解,最终在有限的资源条件下,使得系统的磁盘资源利用率得到提高,达到了减少系统的设备使用数量,并降低系统整体成本的目的。混合云存储系统的数据布局策略研究,目标是能够实现混合云存储系统的设计决策。在现实的商业应用中,一部分企业选择自建私有云存储系统,还有一部分企业选择租用第三方的公有云存储服务,更多的企业因为实际需要,使用的是公有云存储服务和私有云存储系统的混合系统。无论采用什么形式的云系统,企业都希望能在满足需求的前提下,能实现最低的建设和使用成本。然而由于租和购相应的成本横向评估困难,造成了租和购混合比例确定困难,这是设计混合云存储系统关键要解决的问题。本文基于一个金融理论——净现值理论(NPV,Net Present Value),提出了 一个可实现租和购横向评估对比的设计模型。再利用kNN和K-means算法将不同的数据和设备分类,达到不同数据更合理的布放到相应的系统中去,最终能够快速有效的决策系统的混合比例,达到以最少的经济成本实现企业的混合云存储系统的设计需求。