论文部分内容阅读
随着近年来新一代移动通信、物联网、云计算等新兴技术的发展和普及,数据流量呈现爆发式增长,原有通信系统中的数据处理压力增大。而分布式计算Hadoop中的MapReduce编程架构凭借其强大的数据处理能力已经在文本分析、自然语言处理、商业数据处理等领域内成为比较成熟的解决方案,能够满足现阶段通信领域的数据处理需求。但随着数据量的进一步增大、涉及的配置参数进一步增加,配置参数优化成为目前限制MapReduce性能的主要瓶颈。Hadoop配置涉及了200多个参数,其中有约13左右会对运行的作业产生较大的影响,这些参数恰恰决定了集群整体的性能表现。围绕上述问题,本文以性能调优为基础,设计一种新型的参数配置分析系统,能够针对每一个作业得到相应的最优化的参数配置。本文在原有MapReduce框架的基础上提出了三个新的逻辑部件:参数分析器、参数判决引擎、基于代价的优化模型。其中,参数分析器会在未修改的MapReduce程序中收集相关统计信息;参数判决引擎会对各个参数域进行细化的预测;基于代价的优化模型则是在前两者的基础上将参数配置简单化,给出最优化参数。上述三个部件综合使用下,可以针对每一个作业给出最优化的参数配置。通过对MapReduce主要领域内的典型应用:词频统计、词共现统计、排序进行优化后参数的综合评估来验证本文提出的三个逻辑部件的有效性。经过测试和验证,经过本文所设计的三个逻辑部件得出的最优化参数相比较经验法则与默认参数在解决Hadoop服务器集群的性能瓶颈问题上具有优越性和有效性。新的优化模型将参数配置简单化,且具有创新性和实用性。