Hadoop网络日志分析系统性能优化算法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:wb_0622
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Hadoop作为一个分布式计算框架,是网络日志分析的主流工具之一。衍生的Hadoop系统从I/O性能、任务调度、MapReduce模型等方面提出了诸多缩短处理时间的解决方案,但它们在网络日志分析作业中对处理效率地提升仍不能满足变化的需求。在互联网公司和科研机构中计算机资源有限,网络日志分析的需求是不断增长和变化的,Hadoop网络日志分析系统往往会因日志数量增长而速度减慢,整个集群的吞吐率不断降低。通过研究网络日志的内容特性、分析方法,以及Hadoop的计算框架等内容,本文提出了针对Hadoop网络日志分析系统的四种性能优化方案:合并作业以共享I/O,把相似作业合并以节省多次读取数据集的时间;小作业分组数据预取,以节省读取扫描额外数据集的时间;Reduce负载均衡,缩短Reduce阶段的处理时间;多个复杂模块联合调优,综合前三个方案以协调多个阶段累积节约处理时间。这四种优化方案在一些阶段节约了时间,理论计算表明这四种方案是可以在约定条件下实现总体处理时间缩短的性能提升目标。实验结果表明,本文提出的策略可以有效提升Hadoop在网络日志分析系统的性能。整个Hadoop网络日志分析系统的性能提升在20%以上,优化效果与类似的优化算法或框架对比也有所提升。
其他文献
基于平面弹性复变函数中的保角变换方法,得到了带有衬砌的深埋非圆形压力隧洞,在原始地应力和静水压力共同作用下的应力位移解析解。本文考虑了衬砌的支护滞后效应,并且认为
回指一直是英汉语言学研究的热点,回指的研究经历了从形式到功能,从句内到篇章的转变。研究不仅涉及回指的使用也包括对回指的理解。回指按照先行语和回指语可以分为多种类别
现代社会是个信息化的社会,各个领域都涉及到快速有效的自动身份验证,目前被认为最可靠的身份验证方法是生物特征识别技术。人脸被认为是最理想的用于身份鉴定的生物特征,在
随着国家经济的飞速发展和人民生活水平的不断提高,机动车数量急剧增长。交通拥堵和停车难问题已成为大中城市亟待解决的重大社会问题,道路交通事故和道路交通违章事件频发,道路交通管理、机动车管理和驾驶员管理都面临严峻挑战。人工智能技术不断实现技术突破,深度学习成为当下研究和应用的热点技术,围绕基于深度学习的车辆检测方法开展应用研究,具有较大的学术研究意义和工程应用价值。不论是机动车违章行为事件的确认与处罚
车型识别作为智能交通的重要组成部分,主要可以应用于公安部门的车辆稽查、高速公路智能收费以及智能停车场等领域,是重要的交通参数之一。在当今世界车辆数量急剧增加的大环
随着互联网的普及,我们的生活、学习和工作与互联网的联系日益密切。在我们的现实生活中搭建了各种网络,这些网络需要用到DHCP协议进行地址分配。DHCP可以有效解决无线用户移
目的:探讨影响淋巴结转移的结外相关危险因素在评价直肠癌淋巴结转移中的价值。方法:收集吉林大学中日联谊医院放射线科自2016年1月至2017年12月期间诊断的108例行直肠癌根治
在全球石油的总消耗量中,汽车行业占据了一大部分,同时汽车尾气的排放增加了全球温室气体上升的幅度。中国借鉴美国、欧洲及日本的法规,关于油耗方面,制定了第五阶段的燃油消耗量法规,限值为4L/100km,同时也制定了最严格的国六排放法规。以上法规的提出给汽车行业带来了巨大的挑战,汽车行业为了达到以上法规的标准,各大车企针对发动机提出了不同的机内和机外控制策略,以免被汽车行业淘汰,针对降低油耗的控制策略有
安全关键软件在航空航天、轨道交通、工业控制等领域当中扮演着非常重要的角色,一旦失效将会产生难以预计的后果,因此,对软件的可信程度进行评估是一件非常重要且急迫的事情
稻瘟菌(Magnaporthe oryzae)是导致水稻产生稻瘟病的植物病原真菌。它也是研究植物病原真菌的重要模式真菌之一,除水稻外还能侵染多种禾本科植物。已有的研究表明,由氮源缺乏