一种优化HDFS小写文件存储策略研究与实现

被引量 : 0次 | 上传用户:aspxcss
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网数据迅猛增长,在大数据时代存储和处理这些海量数据成为最大的挑战之一,各种各样的云存储系统开始涌现,国内外公司都投入到各自云存储系统研究和开发中。HDFS是Google GFS开源实现的分布式文件系统,专门用于存储海量大数据,具有高可靠性、高可用性、高伸缩性等特点。HDFS集群采用主从架构,一个中心节点用于保存文件系统的元数据,许多个数据节点用来存放实际的数据。大文件被分割多个块,被存放在数据节点中,分布在不同数据节点上。当HDFS应用于含有大量的小文件场景中,会造成中心节点内存急剧消耗,限制HDFS集群容量,同时造成中心节点洪泛查询的压力。论文研究了HDFS自带的小写文件存储的解决方案,它们采用远端合并压缩的方法,但是由于存在多级索引过程,导致读写性能低下。针对HDFS自带方案的不足,提出了一种客户端小写文件合并策略。该方案将小文件在客户端缓存合并成一个大文件,同时小文件在大文件的偏移信息写入大文件的开头部分,然后作为一个文件块存入数据节点;在数据节点端添加小文件映射表,实现了对原生Inode结构的拓展;在数据节点通过小文件索引信息,提取小文件内容;并通过采用缓存预取策略来提高读取性能。最后设计测试方案,对拓展系统进行了内存占用、读写性能等方面的测试,通过与原系统小文件存储方案进行性能比较,发现系统内存使用节省达70%,写文件时间平均缩短20%,通过预取策略文件读时间平均缩短40%。
其他文献
"顺风车"的出现和发展,给社会带来了相当大的利益,但是在其发展过程中也不可避免的存在一定问题。从"顺风车"出现的现实背景看,存在其合理性的法理基础,从行政规制的角度出发
本矿位于宁夏回族自治区中东部地区,井田面积为65Km2。该矿主要充水含水层为直罗组砂岩含水层,平均厚度达到138.7m。本论文主要对2#煤顶板含水层水位进行预测。本论文通过收集
自从上世纪90年代房地产行业市场化大幕拉开,房地产行业一直备受关注,房地产行业是典型的资金密集型行业,且与之关联的上下游行业较多,而随着国家打出宏观调控的组合拳,房地产业的
党政领导干部经济责任同步审计(简称同步审计)是在领导干部经济责任审计的基础上发展而形成的、中国特有的审计制度,是指审计机关对同一行政区或同一部门、单位的党政领导干部在
在顾客选择范围日益扩大,企业争夺客户不断加剧的今天,培育和维护消费者的品牌忠诚已成为众多服装企业优先考虑的营销关键。如何真正赢得消费者的品牌忠诚,必须弄清其形成机理和
2006年微博首次在外国产生,2007年首个微博网站在国内出现,随之而来的几年里,微博在国内市场不断受到关注和快速发展。如今微博在国内的受欢迎程度已经超越了很多交友网站、bl
ST股票作为我国股票市场中特有的一类股票,从1998年问世之日起便一直是市场关注的热点,今年年初推出创业板退市制度以后它再次成为了市场上的热门话题。ST股票投资具有其自身的
目的探讨牙髓不同的感染状态对根管治疗期间疼痛的影响。方法选择82例根管治疗病例,每人1颗患牙,分为死髓牙组和活髓牙组。对比根管预备后、根管充填后两组患者的疼痛情况。
作为移动通信与互联网技术相融合的产物,移动互联网随时随地的网络接入和多样化、个性化的应用服务,极大的改变了我们的生活方式。同时,作为一种新兴产业,移动互联网也展现出了巨
目的集中探讨对患有多囊卵巢综合症的患者采用达英-35治疗的疗效。方法选取2011年4月-2014年6月我院妇科门诊诊断为多囊卵巢综合征的患者100例作为研究对象,按照随机分配的原