论文部分内容阅读
随着信息化建设的高速发展,传统的基础设施也在不断的向云平台迁移,而云计算也在2013年成为政府未来几年信息化建设的一个主流方向。其中基于Hadoop所搭建的云计算平台是目前最为主流热门的应用,被世界各大IT业巨头广泛的使用和发展。随着Hadoop云计算平台搭建成功和使用过程中的不断扩容,Hadoop其自带的监控系统已经无法胜任对集群全面了解和掌握的任务,这也为平台的管理和监控带来了难题。这时候一个功能全面,能够让管理人员随时随地及时掌握平台各种信息的监控系统就显得尤为重要。而当前,对资源的监控研究主要集中在网格计算,很少有谈及对Hadoop平台的监控,而对网格计算的监控并不能快速的反应Hadoop平台的状态,远远低于Hadoop平台的监控需求。本文首先对现有的一些主流监控系统进行分析与对比,并以江西电信的Hadoop云计算平台为背景,针对该平台的网络结构、信息安全的要求、业务需求、功能需求等方面,通过分析与规划,采用Nagios和Ganglia这两套开源的监控工具。根据这两套软件的优缺点,进行优势互补,并根据现有Hadoop集群的实际情况,开发和设计出一套监控系统,能够完全和实时的监控Hadoop平台。该监控系统能够对Hadoop平台进行监控,对集群各个节点性能指标进行监控,针对信息安全考虑采用分布式构架,各种监控指标和信息能够以Web页面图表方式直观的展示,管理员更加轻松的集群管理和全面了解掌握集群信息。监控系统能够在集群出现故障时,以多种方式快速的告警通知管理人员,提高集群的运行速率,针对现有Ganglia监控系统不能完整的存储监控信息,实现了HBase对Ganglia监控数据的持久化存储与查询,为集群的健康诊断和今后的扩容提出依据,最后进行了相关系统的功能测试和性能测试。