基于HDFS的海量小文件存取优化技术与应用

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:wsb398322830
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Hadoop分布式存储系统(Hadoop Distributed File System,HDFS)由于具有高可靠、易扩展、高容错性等特点,已经广泛的运用在大数据存储领域。但是近几年随着社交、短视频、电商等一系列的移动应用的兴起,小文件大量产生。HDFS设计之初并不是为了存储海量小文件,因为海量小文件会产生大量的元数据信息,这些元数据信息保存在Namenode内存中,Namenode内存瓶颈问题会导致HDFS存储小文件时效率低下。本文针对HDFS在云环境下存取小文件技术进行研究,主要做了以下三个方面的工作:首先,针对HDFS存储小文件时因Namenode内存瓶颈导致存取性能低下的问题,提出了一种适合于大数据领域的小文件合并方案。该方案先使用基于密度和层次的小文件合并算法将与用户访问相关的小文件聚类,随后将聚类后的小文件元数据信息存入链表组,当链表组中链表存储的小文件信息达到一定大小时,根据元数据信息从HDFS中取出对应小文件合并后替换原本小文件。从而合并文件内部小文件就具有了较强的访问相关性,降低了用户批量访问小文件时跨越多个合并文件导致的读取时间损耗。同时,基于链表组的合并方式避免了存储碎片化。实验结果表明,在提出的小文件合并方案下,Namenode内存消耗极大的降低了。同时,降低了因合并文件带来的读写时间损耗。其次,为了进一步优化小文件的读取性能,在HDFS集群与用户之间加入中间缓存并提出了一种混合缓存方案。该方案将缓存分为传统缓存区和预测缓存区,同时考虑缓存替换策略和预取策略。传统缓存区考虑缓存替换策略,采用基于多级队列优化的自适应缓存替换策略。预测缓存区考虑缓存预取策略,采用基于线性回归的预取算法。实验结果表明,混合缓存方案提高了用户访问小文件的缓存命中率,在应用场景和用户需求发生改变的情况下保证缓存命中率的稳定。小文件读取时间进一步降低。同时,混合缓存方案分担了HDFS集群的I/O负载,提高了集群稳定性。最后,综合以上所提出的两种小文件优化方案进行了原型系统设计与实现。面向冷链物流安全追溯应用设计了一种小文件处理模块,该模块存在于HDFS集群与用户之间,负责处理用户对小文件的读写、与HDFS集群交互等。同时,对整个集群的内存资源、流量资源以及小文件处理模块中缓存的命中率进行监控。
其他文献
西双版纳傣族竹器是当地人不可或缺的生活器具之一。作为人类最早使用的器具,竹器以其取材的便利性、实用的功能性流传至今,随着城镇化的建设进程,竹器从兴盛开始走向衰落,如何适应于当代生活可持续的发展下去,不仅是竹器,也是传统手工艺共同面对的问题。研究以西双版纳傣族竹器为对象,拟在前人已有的研究基础上以设计学的视角为切入点,通过对西双版纳傣族地区竹器的产品分类、工艺流程、艺术特征、生产现状、使用主体、风俗
在未来网络中爆发式计算密集型应用的可预测性推动下,移动边缘计算(Mobile Edge Computing,MEC)被认为是缓解移动终端压力的有效技术,MEC技术允许用户能够将其计算工作负载卸载到位于基站(Base Station,BS)附近具有丰富计算和缓存能力的MEC服务器。面对大量的卸载需求,如何利用有限的通信资源和计算资源为用户提供服务已经是MEC系统中的一个关键问题。此外,非正交多址接入
随着5G时代的到来,与之相关的D2D(Device-to-Device)通信技术已经成为当下研究的重点。作为如今5G时代的移动通信系统的关键技术之一,D2D通信技术已经被证明具有许多非常优秀的特性,例如提高频谱资源的利用率、实现小范围内的资源共享、扩展传统的互联网业务等。虽然D2D通信有很多的优点,但缺点也很明显。在没有基站的支持下,D2D通信容易受到干扰,这就需要其他手段来提高传输可靠性,而网络
近年来,随着物联网的快速发展,物联网设备的数量呈指数型增长。面对上千亿的接入量,传统的云计算蜂窝无线网络难以满足未来网络需求,而且由于移动设备有限的计算、存储、传输等能力,实现无线网络低时延的要求面临着巨大挑战。同时受限于目前的电池技术,移动设备的能耗问题也给物联网的发展增添了不少阻碍。为此,本文主要利用设备到设备(Device-to-Device,D2D)通信辅助移动边缘计算,充分利用无线网络中
随着移动通信技术的发展,具有大量设备接入、数据包短、低速率传输和零星通信特点的大规模机器类型通信(massive Machine-Type Communication,mMTC)已为第五代无线通信(Fifth Generation Mobile Communication System,5G)的研究热点之一。免调度非正交多址接入(Non-Orthogonal Multiple Access,NOM
毫米波(mm Wave)波段为5G通信开启了一个新时代。由于毫米波波长较短,导致传输过程中路径损耗较为严重,而大规模MIMO技术可提供较大的传输增益,因此将毫米波通信技术与大规模MIMO技术相结合可有效缓解这个问题,但随着MIMO规模越来越大必然会导致天线数目的增加,从而增加基站部署成本以及过高的功率损耗。另外,在室内,由于障碍物的存在导致毫米波视距链路不可靠。智能反射面(IRS)是一种具有成本效
移动边缘网络中流量呈现爆炸式增长,移动用户对个性化服务的要求也逐渐提升,但由于有限的缓存,通信网络将面临通信拥塞甚至中断的问题。为了解决这些问题,一种可行的方案就是移动主动缓存。移动主动边缘缓存旨在通过利用与用户行为相关的信息来提高网络吞吐量并改善用户体验。通常,缓存策略需要识别并缓存最受欢迎的内容,以充分利用边缘存储容量。因此,缓存策略的评估指标通常为缓存命中率。本着这种思路,现有缓存策略已经从
本课题以遭受典型网络攻击的一类非线性系统为被控对象,研究控制回路、跟随者输出信号、传感器或执行器不同部位遭受拒绝服务攻击或遭受欺骗攻击的安全控制问题,采用的研究方法包括投影算子技术、分离函数引理、反步法以及动态面控制技术等理论方法。主要研究工作包括以下三个内容:1、针对被控对象和控制器端之间的控制回路遭受拒绝服务攻击的一类不确定非线性系统,提出了一种事件触发的安全控制方案。当系统受到间歇性拒绝服务
作为第五代移动通信系统(The Fifth Generation Mobile Communication System,5G)三大应用场景之一的大规模机器类通信(massive Machine-Type Communication,m MTC),受到了研究人员的广泛关注。在该场景下,M2M(Machine to Machine)通信终端数量增长迅速,不仅造成网络中频谱资源匮乏,而且会导致网络拥塞
随着科技时代的高速发展,对信息通信的要求也越来越高。如何实现可靠且安全的通信无论对军事应用和民事应用都十分重要,而雷达天线罩可以在一定程度上减少干扰,保证通信的安全可靠,并降低天线的雷达散射截面,进而实现隐身特性。因此作为现代雷达天线罩的重要组成部件之一,微波吸收体无论对于国防科技还是民事应用都有十分重要的意义。对于微波吸收体的研究也成为了近年来的研究热点问题。本文主要围绕着微波吸收体的分析设计及