论文部分内容阅读
在大数据时代,我们正步入一个由数据驱动的经济社会,是否能够高效地、及时地分析海量数据变成了一个产业成功与否的重要前提。在海量数据处理环境中有很多需要在流式数据上进行复杂计算的情况。近些年来,Storm作为流数据实时处理利器在工业界和学术界都引起了广泛关注,对Storm的处理性能的优化工作更是成为业界研究的热点。已经有很多研究工作以优化Storm任务调度为出发点,在一定程度上提高了Storm的处理数据的效率。但是他们大都忽略了任务配置参数的好坏对Storm处理性能的直接影响。实际上,如果不能对任务配置参数有很恰当的设定,那么将对Storm集群处理性能以及稳定性产生严重影响,而且以往的优化方案也都不能够达到很理想的优化效果。在研究了流式处理框架Storm及相关技术的基础上,本文提出一种具有集群自适应性的Storm任务部署与配置平台,致力于解决Storm集群性能优化问题。在本平台中,本文主要实现了以下功能服务:(1)为监控集群资源变化情况、获取历史分配信息以及监控集群节点间任务通信量的情况,本文设计实现了Storm集群感知模块;(2)为解决任务运行进程数目的盲目设置对处理性能造成的不良影响,本文设计实现了Storm任务配置自调节模块;(3)为提高集群处理性能,在(1)和(2)的基础上,本文设计实现了一种基于此平台的Storm调度算法。经过实验证明,在结合对集群全局状态的感知以及对任务配置参数合理的自调节之后,本文的调度算法能够大大减少集群内部任务通信量,在很大程度上提高了Storm集群的处理性能,为海量流数据的分析处理提供了更为高效敏捷的处理方案。实验表明,此方法在事务处理时延上要比Storm缺省调度方法低47.6%左右,比目前基于内部通信量优化效果最好的调度算法OnlineScheduler低21.4%左右。本文首先介绍了大数据环境下实时流数据处理的重要性以及流计算框架发展研究情况,其次对本平台开发实现的相关技术进行了简要的介绍,然后对平台整体架构以及核心模块的实现进行了系统性介绍,最后对平台的性能测试实验结果进行了分析介绍。在论文的结尾处,进行了研究总结以及未来方向的展望。