HDFS中海量小文件合并与预取优化方法的研究

来源 :计算机科学 | 被引量 : 0次 | 上传用户:shilin00100
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
HDFS在存储海量文件时具有明显的优势,但在存储小文件占绝大多数的海量文件时,HDFS单个NameNode的存储架构会导致其性能严重降低。为此,提出一种基于合并思想的方案,即将小文件合并为大文件,同时建立小文件到合并文件的映射关系,并将其存于HBase中。为了提高读取速度,建立了基于LRU的预取机制。实验表明,该方法能明显提高HDFS在处理海量文件时的整体性能。
其他文献
隐私保护是当前数据挖掘领域的一个研究热点,其目标是在不暴露原始数据信息的前提下准确地实现挖掘任务。针对隐私保护序列模式挖掘问题,提出了项集的布尔集合关系概念,设计了基
研究了物联网终端设备软件的开发系统,开发了终端软件并进行了仿真和测试。通过进入该系统的软件开发平台,采用JAVA编写程序,然后使用系统切换平台把编写的程序软件导入到主测试平台,测试软件参数并进行仿真。高校智慧食堂的APP软件开发及仿真测试结果表明,该程序满足指标和功能要求。本系统以虚拟云桌面操作系统为平台,使用Citrix虚拟桌面客户端软件登录服务器,能够完成以云+端虚拟桌面系统实现实验环境与真实
SQLice数据库在Android,iOS,Windows Mobile,Symbian以及Palm等移动终端应用领域有着广泛应用。针对现有SQLite数据库删除数据的恢复技术存在的恢复结果乱码较多、恢复数据不完
对文本的特征提取方法以及深度神经网络的分类器的搭建进行研究。首先,在全局和局部的特征提取方法的基础上,通过对文本特征内耦合关系和文本特征间耦合关系进行分析,确定用
关键蛋白质对于细胞生活是不可缺少的,识别关键蛋白质可以帮助了解细胞生活的最小需求,同时对药物设计也有非常大的作用。随着高通量技术的发展,人们可得到越来越多的蛋白质-
针对稀疏保持投影算法在特征提取过程中无监督和L1范数优化的计算量较大的问题,提出一种基于流形学习和稀疏约束的快速特征提取算法。首先通过逐类PCA构造级联字典,并基于该
分配律在经典逻辑推理机制中具有核心地位。量子逻辑不再具有经典逻辑中的分配律,从而也失去了经典逻辑推理机制,因此量子逻辑是否可称为逻辑备受人们质疑。指出了希尔伯特空
在爆轰波碰撞和炸药与岩石匹配准则的基础上,提出对称双线性起爆技术,以提高炸药的能量利用率,降低岩石大块率。应用有限元软件中的流固耦合算法,分别对雷管和对称双线性起爆
针对贵广铁路GGTJ-2标DK120+692~DK120+874段的地质条件,在综合了光面爆破和预裂爆破特点的基础上,提出了边坡控制爆破改进技术,结合钻孔角度精确定向技术和爆破参数优化方法