论文部分内容阅读
随着信息技术的飞速发展,特别是移动互联网、物联网等的发展,数据呈现出了爆发式增长,我们已经步入了海量数据的时代。传统的存储管理方式已经不再满足当前的存储现状,如何有效的存储、管理、维护这些数据已经成为了一个热点问题。云存储技术的飞速发展,使得云存储成为了一种新型的数据存储解决方案。越来越多的开发者和企业将数据迁移到云端平台上,以降低数据管理和运维成本,并减轻海量数据的冲击,但是云存储目前还处于发展阶段,各种技术和相应的法律法规并不成熟和完善,因此存储在云端的数据并不是万无一失的,很有可能因为一些突发事件导致用户数据的丢失,或者机密数据的信息泄露,考虑到这些因素企业内部比较敏感重要的数据是不适合存放在现有的商用云存储系统之上的。本文在综合分析了目前国内外云存储技术的发展现状,借鉴了目前最稳定、最成熟的云存储产品Amazon S3中的技术方案,考虑到企业内部现有的硬件存储设备,提出了一个具有高可扩展性、高可靠性、兼容不同存储设备的分布式云存储解决方案——基于HDFS的分布式云存储系统。该系统分为三个部分:底层数据存储部分、中间逻辑处理部分、前端访问部分,整个系统是构建在分布式文件系统HDFS之上的,充分利用了其在数据灾备、容错纠错、数据恢复方面的优秀表现,在底层存储系统之上设计实现了文件读写模块,在兼容Amazon S3协议的基础上,设计实现了面向前端请求的代理模块、核心业务逻辑处理模块、基于数据库的元数据存储模块,提供了两种服务访问方式:Web前端浏览器访问、SDK访问方式,为了确保数据请求在传输过程中的安全性和完整性,设计实现了安全控制模块,这样就构建了一个具有高可扩展、高容错、可靠、安全的分布式云存储系统,最后本文完成了整个云存储系统的分布式部署和测试。