论文部分内容阅读
云计算在近年来逐渐成为国内外关注的热点。当云计算系统中的运算与处理的核心是海量数据的存储时,云计算就衍变成为一个云存储。伴随着云计算的高速发展,云存储也成为当下最为热门的研究领域。云存储作为当前的新兴服务,它把用户的数据都存储到云端的服务器上,用户只需要通过网络登录到云存储服务系统上,就能够随时随地地查看、添加自己的文件,并且再也不用担心数据的丢失了。Hadoop是阿帕奇开发的一个开源分布式计算平台。在分布式计算和数据存储方面,Hadoop表现出优异的性能,并引起了国内外知名IT公司的高度关注,各大公司和科研机构纷纷投入大量人力物力进行研究,使得Hadoop在云计算和云存储中的应用越来越广泛。Hadoop包括HDFS分布式文件系统。HDFS拥有强大的数据存储能力,特别适合在作为云存储集群中使用。但HDFS在设计上存在一些缺陷和性能上的不足。因此想要大规模推广HDFS的使用,还必须对其进行改进。本论文主要研究基于HDFS的云存储模型,并针对基于HDFS所建立的大数据云存储平台在云数据存储、安全性方面以及并发性能方面的不足对其进行改进。最后使用HDFS与当前流行的SSM服务端后台开发框架搭建一个高可用的大数据云存储平台。本论文主要分为四大部分,分别是客户端、传输层、请求处理系统、云存储集群。客户端是用户直接操作大数据云存储平台的工具;传输层提供安全加密的方式传输文件,请求处理系统是后台系统,向上接收用户请求,向下操作HDFS;云存储集群中文件直接存放的物理介质,提供海量数据存储,其与请求处理系统对接。本论文关于大数据云存储平台的主要工作和特点如下:一,云存储集群采用Hadoop搭建,同时增加备份元数据节点,组成联邦结构。HDFS的元数据存储在namenode节点上,而HDFS一般只有单一的namenode节点,所以整个HDFS的性能、存储容量以及可靠性都受到单一namenode的限制。甚至,如果namenode宕机,则整个HDFS分布式文件系统将无法正常运行。所以我们需要对HDFS的namenode进行改进,增加一个backup_namenode备份节点,以提高HDFS的可靠性。二,客户端增加一层文件系统过滤驱动加密机制。存储在HDFS上的文件都是先按一定的算法分割成多个指定大小的文件块后再存储的,换言之,HDFS都是采用明文的方式对文件进行存储。所以若HDFS被黑客攻击,导致用户数据发生泄漏,那后果将不堪设想。所以我们需要在原来HDFS的基础上,增加一层加密机制,对存储在HDFS上的文件进行加密,以提高HDFS的安全性。三,在客户端与请求处理系统使用Netty框架的非阻塞IO方式传输。与传统的云存储系统不同的是,我们这次设计的平台将使用Netty框架所支持的非阻塞IO方式传输文件,比阻塞式IO的性能更好,同时还节约了系统的线程等资源。云存储系统需要考虑的其中一个问题是整个系统的并发性,当用户请求同发数达到一定时就会严重约束云存储系统的性能与市场发展。本论文将使用非阻塞IO以增强大数据云存储平台的并发性。四,传输层使用HTTPS安全网络传输协议传输文件。HPPTS安全协议在当前IT行业最为流行和安全性较高的网络传输协议。因为,在第二部分的基于上,本论文还将进一步采用HTTPS协议以加强我们的大数据云存储平台的安全。五,采用SSM+Netty+Shiro框架搭建请求处理系统。请求处理系统使用SSM以达到快速搭建的目的,同时还减少了大部分烦琐的问题。这样即可达到处理客户端请求的要求。结合采用Shiro框架进行用户权限认证。本论文研究的大数据云存储平台具有用户分层的权限级别。对不同的用户提供不同程度的文件安全级别。另外结合第二部分提及的非阻塞IO,实现请求处理系统的高并发性能要求。本论文在最后进行大量实验验证,将采用原始的HDFS搭建的云存储系统与改进后的方案进行对比,实验结果证明,本文提出的改进方案具有更好的效果,能够发送HDFS的性能。使用改进后的Hadoop搭建的云存储集群,开发Web应用程序,通过B/S模块模拟云存储平台,实现云存储的相关功能。