论文部分内容阅读
云计算是网格计算、并行计算以及分布式计算的延伸和发展,它能够有效解决信息对代有关大数据处理方面的技术难题。Hadoop是当前主流的云计算平台,通过集合成千上万台廉价计算机或服务器,它能够提供每秒万亿次的运算能力以及大量存储空间。目前,云计算技术已经步入实施阶段,各大企业开始建立自己的数据中心,正式部署与运营云计算平台。然而,动辄几百上千台的服务器集群,为运营管理带来巨大挑战,稳定、可靠、高效地云计算平台实时监控系统成为云集群顺利运行的基石。本文依托“海洋环境信息云计算与云服务体系框架应用研究”项目,构建基于Twitter Storm (Twitter即为推特)的云计算平台监控系统,使用户能够在Web页面按需求订阅监控信息,以曲线图、列表等形式分析集群状态。本文还针对传统实时数据处理速度缓慢和数据丢失等问题提出相应的优化策略。根据海洋项目对数据资源、计算资源和虚拟资源等监视需求,本文首先设计系统的整体架构情况,列出系统框架图,然后从数据采集、数据处理、平台展示等模块逐一说明系统的设计及实现。数据采集模块是系统数据流的源头,它利用Ganglia等技术按照用户设置的订阅信息实时采集相关数据,以XML数据格式进行传递;数据处理模块是系统的核心部分,本文从多种模式展开计算拓扑(Topology)的设计,依照Storm提供的相关API进行实现,使系统在接收到数据后,能够精确计算并实时返回处理结果。另外,该模块还提供了数据的持久化功能,为用户后续对集群历史情况的分析提供依据;平台展示模块是用户与系统沟通的窗口,用户可以在界面上直接监测集群工作情况,也可以通过设置订阅,细粒度监视管理各台主机。最后,本文在数据流的概念模型基础上阐述了基本的数据流处理模型,然后以这两个模型为背景,提出基于Storm的数据流处理策略,有效保证实时数据的完全处理和数据流的按序分组,本文还对传统滑动模型进行优化,设计了基于复合滑动窗口模型的聚集查询。系统评测部分对优化做了进一步阐释,以图形方式直观对比显示优化结果,表明优化算法的可扩展性和实用性。