一种基于HDFS的高性能文件存储与管理系统

来源 :广东工业大学 | 被引量 : 2次 | 上传用户:xfh99620
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着全球数据信息呈爆发式增长,人工智能、机器学习、大数据、物联网等新兴产业蓬勃发展,几何增长的数据量需要更大的存储空间和更低的存储成本,因此分布式云存储的概念应运而生。本设计基于HDFS,致力于开发一款兼具应用、安全和性能的分布式文件云存储系统。现有的文件系统面临诸多技术和性能的不足:文件操作方面,HDFS作为底层的存储支持,用户并不能对其原生接口方法直接进行访问;安全性方面,Hadoop加密算法单一、不支持迭代加密和应用级加密;文件搜索方面,HDFS提供的文件检索功能需要遍历整个文件目录列表,从而消耗大量时间和计算资源;小文件存储方面,HDFS在设计之初便没有考虑到海量小文件存储导致的Name Node内存空间浪费问题。基于以上分析,本设计主要从文件存储系统的基础功能实现、文件及系统安全性、站内搜索功能和小文件存储优化四个方面进行研究和改进。基础功能方面,封装和增强了HDFS原生访问接口,提供了可供用户直接访问方法的URL,实现了应用级别的文件上传、下载、移动、浏览、删除等文件操作,实现了文件信息和系统状态的透明管理,并对请求响应的结果数据和异常信息进行统一定义和处理。文件数据加密和系统安全性方面,使用AES加密用户敏感文件数据,RSA加密AES密钥的组合加密策略,使用MD5加密用户账号信息,使用Spring Security实现用户身份认证和权限控制等,从而提供了文件数据加密和应用系统认证的双层防护机制。站内搜索功能方面,使用Elasticsearch构建面向用户的系统站内搜索功能,通过创建多属性、多维度描述文件信息的索引映射关系,用户可以创建、更新和删除索引,也可以自定义字段搜索、组合字段搜索、模糊搜索或对结果列表进行排序等。同时,提供了基于用户偏好的相关性打分查询实现。该系统站内搜索功能独立、高效且完全面向用户。小文件存储策略优化方面,设计了小文件元数据属性信息定义类,并提出了一种全新的小文件合并策略:基于文件后缀的类型分组和基于文件大小的合并分组策略,在文件上传的同时构建文件检索的二级索引,前者提高了文件系统的检索速度,后者保证了空间资源的利用效率。测试结果表明,系统的基础功能接口请求响应包含三部分,分别是状态码、统计信息和结果数据,将其与HDFS集群上的文件统计结果比较均达到预期效果,基于AES和RSA组合加密策略的文件数据加解密功能运行正常且对用户透明,基于Elasticsearch的系统站内搜索模块可构建多维度、面向用户的文件索引映射,用户可自定义条件进行功能丰富的搜索请求,基于文件类型和大小分组的小文件合并策略具有一定的实现可能性。
其他文献
近年来,群机器人系统在许多不同方面都进行了大量的研究工作,通过设计各种算法来实现集群现象。同时为了验证所提出方案的有效性,数学建模,计算机模拟仿真和实体机器人实验都
随着汽车工业的发展,轿车的各种性能都得到了不断改进和升级,汽车的机动性和安全性能也得到了不断的提升,与此同时,人们对汽车在驾驶过程中的乘坐舒适性提出了更高的要求。其中,车身的NVH(Noise、Vibration、Harshness)性能是衡量汽车舒适性的重要指标,国内外的法规也对轿车车身的振动噪声控制提出了越来越高的要求。由于车身薄壁件的振动是车内低频噪声的重要来源,分析和减少车身薄壁件的振动显
当今水污染问题日趋严重,水中检测到的难降解有机物越来越多,水污染治理迫在眉睫。过硫酸盐(PS)高级氧化技术因反应速率快、降解效率高成为近年来的研究热点,且过一硫酸盐(PMS)和过二硫酸盐(PDS)具有无污染、稳定、易贮存等优点。叶绿素铁钠盐(SFC)属于过渡金属卟啉类化合物,能够与过硫酸盐等氧化剂作用,产生具有氧化活性的基团或中间体,这些活性物质对污染物具有较好的降解效果。本论文将铁卟啉配合物应用
豫剧有着悠久的历史和深厚的文化底蕴,各大流派发展成熟,发展面积较广,深受群众的追捧和喜爱,因此传承豫剧尤为重要。本文将洛阳幼儿师范学校豫剧教学作为研究对象,对中等职
择校是指家长放弃义务教育阶段适龄儿童按学区免费就近入学的优惠政策,主动选择其他学校就读的教育选择现象。择校现象导致了义务教育阶段的教育不公平,已经成为政府需要解决
钢—混凝土组合受压构件的承载力计算与较多因素有关,国内外与之相关的规范大多从材料强度与整体稳定的角度来考虑构件承载力的计算。长期荷载作用和局部稳定问题是影响钢—
审查起诉环节的补充侦查是我国刑事诉讼中一项特殊的诉讼程序,在强化法律监督、保证案件质量、履行客观公正义务等方面都发挥着重要作用。但由于司法理念滞后、法律规定不完
近些年来,多智能体系统的一致性广泛应用于智能电网调度、卫星编队控制等领域。在一些实际应用场合,多智能体系统的通讯拓扑结构经常不断变化,并且随机噪声往往难以避免。这对多智能体系统的性能具有很大影响,可能导致整个系统无法实现一致。因此,本文基于平均驻留时间(ADT)切换拓扑,对几类随机多智能体系统的一致性问题展开了研究,并获得了一些结果,主要工作总结如下:(1)研究一类离散时间随机多智能体系统H_-∞
自媒体时代是以个人传播为主,通过现代化的电子手段,向不特定的大多数或者特定的单个人传递规范性及非规范性信息的媒介时代,具有传播主体的大众化、传播方式的交互性、传播
近些年来,许多大型集装箱港口正逐步朝着自动化和半自动化方向进行改造。借助集装箱码头自动化改造的契机,集装箱跨运车凭借着其装卸效率高,节省燃料开支和维修费用等优点再次进入人们的视线。集装箱跨运车惯量大,质心较高,质量体积较大,这些特点导致跨运车行驶过程中,尤其是在转向过程中极易发生侧翻。集装箱跨运车现阶段正朝着智能化方向发展,但仍处于起步阶段,相关研究并不多。跨运车防侧翻问题作为跨运车领域现阶段技术