Hadoop平台性能优化的研究与实现

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:a717878213a
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何更好地管理数据并挖掘其中的价值,已经成为了大数据时代的热门问题,受到了学术界和工业界的极大关注,同时涌现出了很多开源的工具,如Hadoop、Kafka^ Openstack、Zookeeper等,这些工具极大地降低了大数据的进入门槛,使得很多组织都有能力来分享大数据时代的果实,同时遍布全世界的开发者和使用者的反馈也极大地促进了这些开源软件的发展。作为这些开源工具的鼻祖,以及同时包括存储系统和计算系统,Hadoop已经成为了大数据处理平台的基石之一,其性能的优化是当前一个热点研究问题。针对Hadoop自带的调度器不能有效支持实时作业、无法满足用户对自身作业资源使用限制的需求以及Apache Slider提供的接口不够友好等不足,本文首先通过研究实时作业的特性,同时结合Hadoop调度的特性,设计了三种实时调度器:LSS (Least Spare-time Scheduler)、SPS (Shortest Period Scheduler)、MUS (Maximum Urgency Scheduler)。其核心是通过修改作业队列里面作业的优先级排序算法,让更多作业能在截止期前完成。其中LSS调度器的核心是预测作业的空闲时间,采用空闲时间越小作业的优先级越高的调度策略。SPS调度器针对多个周期性工作流,采用了周期越短的工作流上作业的优先级越高的调度策略。MUS调度器用截止时间描述作业的优先级,采用截止时间越短优先级越高的调度策略。经过实验验证,这三种调度器都能很好地满足实时性作业的服务质量需求。其次,对Hadoop内核中的MapReduce应用管理器(MapReduce Application Master,MRAM)进行修改,通过其向资源管理器(Resource Manager, RM)申请资源时,根据用户指定的并发性限制申请的资源量,使得作业获取的资源量最大不会超过限制的资源量,从而达到限制作业并发性的个性化需求。经过实验验证,该特性能很好地满足用户对作业并发性限制的服务质量需求。最后,通过分析Apache Slider,发现其提供的接口不够友好,且会暴露YARN集群内部信息,本文设计了SliderService,该服务能让用户快速地获取Slider部署的服务的信息,同时实现了SliderService的负载均衡并解决了服务端的高可用性。
其他文献
随着计算机应用的不断普及和深化,嵌入式系统及其应用已经成为全球IT产业发展的一个热点。嵌入式系统的调试作为嵌入式软件开发的一个不可或缺的辅助手段,占有十分重要的位置。
SOA(Service Oriented Architecture)是当前流行的软件技术架构,通过建立可重组的服务体系,可使系统之间保持一种松散耦合的特性,这种特性使得异构系统之间的交互成为可能。S
作为交通事故最严重的国家之一,我国2008年共发生道路交通事故265204起,造成直接财产损失10.1亿元,给整个社会带来的间接伤害更是无法估量。根据专家预测,伴随着我国公路通车
碰撞检测是机器人运动、动画仿真、虚拟现实等领域中一个非常关键的问题,其基本任务是确定两个或多个物体彼此是否发生碰撞或穿透。由于在网络游戏、虚拟现实等应用中对交互
随着网络技术及多媒体技术的飞速发展,互联网在不断地改变我们的生活。在教育领域,网络技术的应用更是促进了教育信息化的发展。网络教学是目前网络应用的一个重要发展方向。网
信息过滤是一种系统化方法,他能够自动的将网络上的动态信息流与用户需求进行匹配,从信息流中抽取出符合用户个性化需求的信息并送给用户。当前信息过滤技术主要研究网络信息
在计算机技术、无线网络技术和通讯技术三者飞速发展的时代,各种基于移动计算的实际应用越来越普及。在移动环境中,移动设备可以在自由移动过程中仍保持网络连接,人们通过便
本体(Ontology)是一种知识重用、知识共享和建模的重要工具,自20世纪90年代以来就受到研究者的广泛重视。从本质上说,本体能够捕获相关领域的共有知识,提供对该领域知识的共同理解
学位
随着网络技术的迅速发展和网络应用的广泛普及,当今社会计算机系统功能越来越复杂,网络体系结构也日益强大,它们对社会产生了巨大而深远的影响,但同时也使得计算机安全问题越来越