基于HDFS的社区文件存储策略改进

来源 :科学与财富 | 被引量 : 0次 | 上传用户:wangsong1008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:互联网技术发展日新月异,居民越加重视社区信息化服务升级,我国各社区信息化系统存在诸多问题,社区系统的孤立导致文件难以共享且针对社区系统的存储方案不够完善。本课题针对以上问题,提出对HDFS的小文件存储策略进行改进。通过小文件的特征判断相似性,进行小文件的分类与合并,根据测试,该策略对于无规则的文件合并策略,读取速度得到提高。
  关键词:智慧社区,HDFS,小文件存储
  0     引言
  随着智慧社区的不断发展,生成了海量的信息数据,目前智慧社区信息系统固化,社区信息难以共享。要实现真正的智慧社区,需要对社区大数据进行合理高效运用,分布式文件存储系统更加符合如今的大数据时代。
  本文介绍了一种以HDFS分布式文件存储为基础,针对HDFS对于小文件处理不足进行改进,可以提高文件存储性能。
  1     Hadoop小文件合并方法
  1.1  Hadoop Archive方案
  Hadoop Archive方案是将多个小文件合并成一个文件,且合并后的文件中包含被合并文件的元数据信息和文件内容,主要由MapReduce将小文件内容进行归并形成归档文件[1]。
  这个方案虽然可以归档小文件,但是归档后不易更改,需要全部解压后进行更改后再进行归档。归档小文件后原文件不会自行删除;归档操作需要依赖MapReduce,查询文件耗时长;且归档操作只适用于已经存入HDFS集群中的小文件,归档过程会占用集群额外的计算资源。
  2     小文件存储改进方案
  本文接下来的内容主要解决以下两个问题。第一,如何判定多大的文件是小文件进而进行合并预处理;第二,小文件如何根据特征属性进行合并,研究与设计具体合并规则和步骤。最后将改进后策略进行测试并比对测试结果。
  2.1  小文件大小划分
  在提出优化方案前,首先需要定义小文件[2],定义小文件的文件大小就是当文件大小大于某一值时,HDFS中文件的存储效率极大的降低,这一分界点即为本课题研究目标。将NameNode节点内存中每KB可存文件数量作为衡量标准,记为NPK。
  式中,N——HDFS上存储的文件数
  Mn——NameNode所消耗的内存量
  通常,文件和具有三个副本单元的块的元数据分别消耗250和 368字节的内存[3],则NameNode消耗内存计算公式为:
  测试NameNode节点的内存占用情况再分别读取HDFS下载文件,测试下载时长和MSPF[4],结果如图2.1所示。
  由图2.1可得,在数值在0 到交点间时增长明显,而后增长缓慢,通过线性拟合可得2.70为读取效率临界点,此时文件大小为7.33MB,故小文件指小于7.33MB文件。
  2.2  小文件合并文件规则
  上一节确定了小文件的具体划分,将小文件处理过程置于预处理节点中,在存入HDFS集群前就实现对小文件分类与合并以解决滞后性,合并规则如图2.2所示。
  采用SimHash算法对文件进行相似性判断并分类,将达到数据块大小的分类进行文件合并,合并生成SequenceFile文件和相应的IndexFile索引文件,最后将合成的SequenceFile文件同大文件一样存入HDFS集群中。将小文件按社区文件特征属性进行合并,可以提升文件读取速度,还可以减轻HDFS内存压力。
  3     测试结果与分析
  HDFS集群负责文件的存储,服务端预处理节点负责小文件处理工作。为减小误差,采用去尾平均值作为测试结果。
  分別采用原生HDFS小文件处理策略和改进后的策略,进行小文件存储时间测试,存储耗时结果如图3.1所示。
  由图可见,本文提出的改进策略在存取文件过程中较原生存储策略有极大提高。
  参考文献:
  [1]   关海超.小文件处理及算法并行化在Hadoop上的设计与实现[D].重庆:重庆大学.2015.
  [2]   闫建,李瑞,刘萨娜.机遇、挑战与展望:“互联网+”背景下的政府治理创新[J].重庆理工大学学报:社会科学版,2017,30(1):76-81.
  [3]   He H,Du Z,Zhang W,et al.Optimization strategy of Hadoop small file storage for big data in healthcare[J].Journal of Supercomputing,2016,72(10):3696-3707.
  [4]   段效琛,李英娜,贾会玲,等.初始信息素筛选的蚁群优化算法在HDFS副本选择中的研究[J].传感器与微系统,2017,(4):31-33.
  作者简介:
  宾茂梨(1997-),男,在读研究生,研究方向:物联网技术与应用
  基金:重庆市教委雏鹰计划第九期研究项目“基于PID控制的简易风洞控制器设计”(CY200602)
其他文献
摘要:现代社会的发展已经从能源消耗型发展方式转变为节约环保型发展模式,随着新世纪的到来,我国在煤炭工程建设方面也发生着巨大变化,尤其是在定额管理改革中,我国相关部门制定了多项规定,试图通过规章制度的方式降低能源开采成本,提高效益,实现可持续发展的目标。从整体看,实现煤炭工程定额管理改革最主要的是通过技术改进的方式实现。  关键词:煤炭工程;定额管理;新技术发展;创新变革  市场经济的发展必然追求效
期刊
摘要:水务公司的水处理工艺技术不断升级,其中电气自动化技术发挥出十分重要的作用。本文围绕电气自动化在自来水厂中的运用议题进行了探讨,概述了电气自动化技术发展,阐述了电气自动化在自来水厂中的应用特点,论述了电气自动化在自来水厂中的应用,供相关人士参考。  关键词:水厂;电气自动化技术;运用  1引言  随着供水产业的发展,水务逐渐从传统的管理方式走向数字化智能化的管理模式。在智能水务建设进程中,电气
期刊
摘要:CAN总线是一种串行数据通信协议,由于其在数据通信上具有突出的可靠性、实时性和灵活性,并可以非常有效地构成分布式控制/实时检测系统而得到了广泛应用。随着人们对汽车动力性、操纵稳定性、安全性和舒适性的不断追求,现代汽车上安装了很多电子控制设备、电子部件、专用传感器和功能各异的执行装置。为了解决汽车电子控制系统中许多动态信息资源共享、信息处理的实时性等问题,大多数中、高档汽车上都采用了CAN总线
期刊
摘要:本研究拟以猪粪、玉米秸秆、生物炭、木屑、沼渣等有机物料为主要土壤改良剂,综述不同有机物料的特性,研究有机物料添加后新增耕地土壤养分特性变化和团聚体结构变化情况,以期为土地整治后农田土壤肥力提升和结构改善提供理论参考。  关键词:有机物料;新增耕地;质量提升  土壤养分和结构退化是限制黄土高原生态恢复的主要因素,土壤养分提升和结构改善对黄土高原生态恢复起着极其重要的支撑作用[1]。延安市位于黄
期刊
摘要:基于某高速铁路胶拼连续梁设计方案,通过建立有限元模型,研究了梁端局部应力的影响与分布。研究表明,梁端局部应力受预应力钢束影响较大,梁端无预应力时,梁端箱梁内侧的底、腹板交界的梗腋角点处易出现拉应力,在钢束预应力作用下,该主拉应力减小变为压应力,而进人洞内侧下部易出现主拉应力。在一定距离范围内,支座距梁端纵向位置不同对梁端局部应力的影响较小。除应力集中区域外,该胶拼连续梁梁端部位的主拉应力、主
期刊
摘要:电网能正常运行的主要原因是继电保护能执行正确的动作,即在发生故障时,继电保护能采取相应的措施,及时切断发生故障的线路,从而为未发生故障的线路提供保障,但如果在二次回路中出现缺陷,继电保护就会发生拒动或误动,此时应尽快排除缺陷,如果不能排除应立即关掉一次设备,同时还应保证电力系统的安全。  关键词:继电保护;二次回路;运行缺陷;处理和预防  前言  随着科学技术的发展,许多相关的专业软件也开始
期刊
摘要:岩石的孔隙结构是指孔隙和喉道的几何形状、大小、分布及相互连通关系,因此对油藏岩石的孔隙和喉道特征的分别研究,更能精确的分析储层的孔隙结构。流体在储层孔隙中的流动,会受到一定的阻力,因而,孔隙和喉道的大小和分布以及它们的组合的各种形状是影响储层的储集性和渗流性的控制因素。因此,研究储层孔隙结构,认识并深入了解低渗透储层的内部结构,对油气田勘探和开发有着重要的意义。  关键词:孔隙结构;低渗透储
期刊
摘要:基于现代化发展背景下,我国水利工程行业迎来了飞速发展时期,作为推动我国经济持续发展的重要组成部分,社会各界人士对大中型泵站的管理与检修工作提出了更高的关注,而作为水泵机组检修维护中的核心方面,接下来文章将以当前大中型水泵机组故障问题为切入点,详细提出几点检修建议,希望能够给相关人士提供些许参考依据。  关键词:水泵机组;故障;检修  0. 引言  在我国大中型泵站的日常运行当中,其水泵机组作
期刊
摘要:随着我国经济和科学技术的高速发展,城市化进程也在不断加快,因此我国加大了对城市生态环境保护与可持续发展的重视程度。据相关数据调查分析,在城市建设不断发展的同时,也造成一系列问题的产生,其中比较严重的一个问题便是违背了我国节约型社会和可持续发展的理念,并对生态环境造成了一定的破坏,从而影响了我国生态城市规划建设的正常展开。因此,为了更好地推进生态城市的建设,保护城市的生态环境,需要结合我国可持
期刊
摘要:从低渗透油田开采过程看,往往前期工作进展顺利。但是随着油田开采的进行,当期达到一定时期,一般是中后期阶段,则油田当中含水率将会提升,进而影响了产油量,使得油田开采效果大为降低。所以当前需要我们加强对低渗透油田开采先进技术的研究和应用,进而降低油田含水率,增强油田产能,推动油田开发的大规模实施。目前,在我国的油气田的开发工作中,工作人员加大了对低渗透油田的开发力度,相较而言,低渗透油田的开发工
期刊