【摘 要】
:
Hadoop 分布式文件系统(Hadoop Distributed File System,HDFS)是 Hadoop 的“数据仓库”,其设计的初衷是存储超大文件的,存储小文件的效率不高。HDFS的架构模式是Master/Sla
论文部分内容阅读
Hadoop 分布式文件系统(Hadoop Distributed File System,HDFS)是 Hadoop 的“数据仓库”,其设计的初衷是存储超大文件的,存储小文件的效率不高。HDFS的架构模式是Master/Slave主从架构,存储众多的小文件将严重消耗Master资源,加剧Master的工作负担,增加网络流量。而HDFS本身缺乏小文件IO优化策略,使得HDFS小文件存储问题成为大数据领域中备受关注的热点之一。Hadoop处理的是丰富多彩的文件,面向无结构、无规律、普通小文件,通用存储解决方案是一项很有前景的研究课题。本文针对无结构、无规律、普通小文件提出了一套通用的解决方案,并重点研究了基于LRFU缓存替换策略的HDFS Client本地缓存设计与实现,提高小文件的存取效率,并取得了一定的成果,总结如下:本文根据Web日志的文件访问顺序使用FP增长来挖掘各小文件之间的关联关系。文中将触发文件和与触发文件相关联的小文件合并为同一个文件,此为第一次合并。并基于均匀分布将第一次合并后尺寸较小文件进行再次合并,为合并文件建立索引,此为第二次合并。HDFS是采用Master/Slave主从构架模式。为了解决众多的小文件严重消耗NameNode资源引起的NameNode资源不足问题,本文提出一种使HDFS Client在某种功能上充当NameNode的思想,并基于此思想设计并实现了在HDFS Client建立文件块信息本地缓存,用户在访问文件时可以在本地获得文件块信息,而不必请求NameNode,减少了 NameNode资源消耗。通过实验证明HDFS Client本地缓存机制命中率能维持在50%以上,小文件访问速度提升了 3.1倍,NameNode小文件元信息请求量降低了 28倍。
其他文献
随着计算机技术的发展,数据在日常生活中扮演着越来越重要的角色,数据备份成为数据保护的一种有效手段。远程文件同步技术在数据备份、文件同步等方面有着广泛的应用。rsync(
并行编程技术由于其运算效率高且性能好的能力,一直是学术界和工业界的热点研究对象。作为其中一种解决方案的事务内存处理技术(Transactional Memory,TM),采用以事务代替锁
目前,视觉跟踪算法作为人工智能的一个重要研究方向,多种视觉跟踪算法应运而生。跟踪学习检测(Tracking-Learning-Detection,TLD)视觉跟踪算法就是其中一种。因其结合跟踪和
大数据时代,数据规模日益增大,存储系统面临着速度、容量、功耗、成本、可扩展以及非易失、耐久性等多方面的挑战。传统的动态随机存储存取器(Dynamic Random Access Memory,
为加强社区服刑人员学习矫正工作,认真落实社区服刑人员每月接受教育学习不少于八小时的工作要求,论文设计并开发了社区服刑人员在线学习系统,旨在提高社区服刑人员学习教育
铝合金的比强度高、耐腐蚀性好,是工业中应用最广泛的轻金属结构材料。然而,铝合金也有自身的缺点,如硬度低、耐磨性差,这导致铝合金工件在摩擦条件下的使用寿命较低,阻碍了它的发展与应用。在铝合金表面电镀得到Ni-SiC-MoS_2复合镀层能有效改善其摩擦学性能。然而由于电镀过程受多种条件的影响,因此得到质量稳定、性能良好的镀层显得尤为重要。本文通过对制备Ni-SiC-MoS_2复合镀层工艺的进一步优化,
随着云计算和多媒体通信技术的快速发展,屏幕图像在远程计算、虚拟桌面共享、在线教育等领域有着广泛的应用,受到学术界和工业界的普遍关注,成为当前图像技术领域的研究热点
该项目来源于百度垂直行业搜索产品线的实际项目。随着智能手机的普及,越来越多的用户开始使用手机端进行检索。由于手机大小的限制,一个屏幕可以呈现三条左右的返回结果,因
图表、数据、资料记录、实验比较、逻辑结构通常被广泛用于实验性研究课题的论证依据,在绘画创作领域,存在着国内外艺术家和艺术研究人员将逻辑观念与艺术创作紧密联系的工作
随着信息技术的飞速发展,机器学习在各个科学领域扮演着越来越重要的角色。多实例学习由传统机器学习演变而来。在多实例学习中,训练集由若干个具有概念标记的包组成,每个包