论文部分内容阅读
大数据环境下,传统的单机处理模式已经无法有效地满足大数据各项日益增长的发展需求,随之集群式架构应运而生,并逐步取而代之。相比于传统单机模式的应用,集群式的应用在性能、效率等方面受到了诸多因素的影响,其中负载均衡是最重要的影响因素之一。目前,Hadoop已经成为了一款备受关注的大数据应用开发利器。负载均衡对以集群架构为主的Hadoop集群应用的性能起到了至关重要的影响,合理化的负载均衡策略不仅能够有效地提高Hadoop集群应用性能,同时也能够给Hadoop用户带来良好的用户体验。随着集群式应用开发的广泛化,负载均衡成为集群环境下的研究热点。国内外学者对Hadoop集群中的负载均衡开展了大量的研究工作,包括Hadoop集群中任务调度策略、Hadoop集群中数据负载均衡等。但随着Hadoop体系的不断增大、应用环境的日益复杂化,Hadoop在集群环境下的负载均衡技术还有很多影响因素需要去考虑、很多策略的制定需要不断地优化。本课题主要围绕在集群环境下,Hadoop体系中两大核心HDFS和MapReduce的数据负载均衡技术做具体的优化工作。同时,为了更熟练地掌握Hadoop在大数据领域中的实际应用,本课题结合电商平台中论坛模块的数据进行了相应的Hadoop平台应用研究,并通过平台应用对前期的负载均衡优化工作情况进行了检验和分析。课题重点工作如下:(1)分析HDFS默认的负载均衡策略中阈值设定特点,以及目前存在的针对默认策略优化的一些算法策略,结合对HDFS整体架构原理,和其应用中存储功能的处理过程、处理对象等方面的分析,引入预测模型来对节点处理对象文件属性进行时序性预测,同时,将考虑的节点特性结合文件属性的预测值来分析动态阈值模型中的时间影响因子,并将对时间影响因子分析得到的结果代入到建立的动态阈值分析模型中进行最后的阈值计算,将最终得到的阈值代入负载均衡策略进行均衡优化。经过实验分析,得出该优化技术能显著提高HDFS集群的存储效率。(2)研究MapReduce并行计算框架以及运行原理,结合对已有的MapReduce数据负载均衡工作成果深入分析,对MapReduce集群环境下Reduce端的负载均衡进行具体优化。为了实现Reduce端的动态化负载均衡,采取动态化轻量级的划分策略。这个策略是从结合负载信息进行采样规模动态化设计、采样方法的轻量级设计、结合采样数据和节点性能进行Reducer数目确定、结合采样结果的分区分析和Reduce的负载信息制定划分策略这几个方面顺序进行得以实现。经过实验分析,得出该优化技术对于MapReduce集群中并行计算性能有显著提高。(3)在优化后的Hadoop应用平台上,选择容量大、内容复杂的电商论坛帖子数据集进行帖子分类研究。通过分析帖子分类流程、帖子分类在Hadoop中的相关实现以及搭建优化后的Hadoop集群平台等工作完成了帖子分类。最后通过分析分类效果和平台的处理时间效率等指标,验证了Hadoop平台在大数据领域的应用开发中具有的优势,验证了本课题开展的Hadoop集群中数据负载均衡优化工作的有效性。