大规模网络数据环境下的Hadoop集群优化研究

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:curarchy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,当今社会每天都会有大量数据的产生,同时随着国内网民的不断增加和网络覆盖率的提升,这些数据还会继续呈指数增长。面对信息爆炸的时代,如何对海量数据进行有效的存储和管理是个很有技术挑战的难题。HDFS是一个具有高度容错性,提供高吞吐量的数据访问,适合存储超大规模数据集的分布式文件存储系统。但在实际使用中,发现HDFS在文件检索、管理、小文件存储、数据分布、安全等方面存在问题。本文首先研究了分布式文件系统的基本架构设计,设计了 HDFS集群信息采集系统,并在此基础上完成了 HDFS文件检索和管理系统,方便用户和管理者对集群文件进行控制和管理。之后基于HDFS信息采集系统,发现集群存在小文件过多的情况,从理论和实验两方面验证小文件过多会造成集群读写性能的严重下降,为解决上述问题,设计了 HDFS碎片整理系统,帮助集群管理者快速发现和消除集群小文件。同时从HDFS信息采集系统,还发现集群存在数据不均衡的现象,从理论上分析数据分布不均衡会造成MapReduce程序无法很好地利用本地计算的优势,在文件并发访问会造成网络拥塞,并通过实验验证上述结论。为了改善数据分布不均衡现状,提出了以文件维度为主的多衡量指标的数据均衡策略,并与默认策略进行测试对比证明有效性。在实际生产环境中,为了提高集群使用效率,需要对用户权限进行管理,以保证集群的使用环境安全、稳定,我们设计了通用的权限管理系统,从命令行端和Web端同时保护集群文件安全。
其他文献
在福建丹霞地貌区的武夷山、连城和泰宁三地选取生长有丹霞岩生草本群落的样地16处,随机选择了300多个4m~2样方进行野外调查取样研究。通过对这些样方的植物物种进行鉴定、记
中国的传统陶瓷艺术一直走在世界前列,现代陶艺的出现使得越来越多陶艺家从功能性器皿的制作转向个人情感、个性的表达。经过四十年的摸索,中国现代陶艺的发展也从最初被动地
<正>男人们越来越离不开电脑了,上班对着电脑看信息,开会对着电脑演讲,下班回家对着电脑看电影,生活和工作被电脑给俘虏,这群人叫"电脑男"。他们需要身体紧急援助。1."干眼症
农民专业合作经济组织是农民与有关企业、组织和个人,在高度自愿的基础上,按互惠互利原则联合起来,依法合作经营农产品及其衍生产品的经济实体。它是以家庭承包经营为基础,由
习近平总书记在全国宣传思想工作会议上强调:“宣传思想工作是做人的工作的,要把培养担当民族复兴大任的时代新人作为重要职责。”作为做好新形势下宣传思想工作必须自觉承担起
报纸
<正>协同办公是协同软件的基础实现,目前国内的企业大都存在协同办公的需求,最初的企业办公集中体现在MS-office、email的普及应用上。随着政府对于信息化的需求和推进,企业
基于"从上而下""由内到外"和"从后向前"的不同维度,我国高校管理文化的生成来源于行政文化—学术文化、国外管理文化-国内管理文化、传统管理文化-现代管理文化的融合,在发展的过程
中国是一个农业大国,13亿人口有9亿在农村。随着农业劳动生产率提高和农村人口的不断增长,农村剩余劳动力越来越多,受工农、城乡巨大利益差距的影响,这部分劳动力源源不断地
随着人类活动对环境的影响,人口、资源与环境问题日益突出,由此引起的土地利用变化也备受关注。本文将土地利用变化与社会经济因素相结合,通过遥感、地理信息系统和数学方法
纤维艺术是集实用功能与审美价值于一体的艺术形态,纤维艺术创作的魅力不仅在于特殊材料的选择运用,同时纤维艺术的构图在整个作品的创作过程中占据着举足轻重的作用。