论文部分内容阅读
随着云计算技术的兴起,云环境逐渐成为应用系统部署的主流方式。云计算提供的快速分配、动态调度等能力给应用系统提供了快速发展的基础能力。为了不间断了解云计算平台自身的运行情况,需建设一套适应云计算环境的监控系统。本研究从开源监控技术出发,对云计算环境下的监控进行了研究,并基于Nagios技术设计并实现了一个云计算平台监控系统。本研究所设计实现的云计算平台监控系统主要包括以下五项功能:1)虚拟环境数据采集:使用无代理模式,对基于VMware环境下的虚拟主机运行性能参数进行采集。2)物理环境资源监控:通过简单网络管理协议获取物理服务器、网络设备的运行数据。3)采集数据存储:对数据采集模块获取的数据进行加工,并存储到对应数据库。4)性能数据图形化展示:通过WEB方式的可视化界面,向云计算平台运维人员实时展示存储数据的运行情况。5)告警和推送:结合互联网时代的及时通信特点,对告警数据通过微信平台进行推送,方便云计算平台运维人员随时随处了解系统运行情况。从容应对系统问题。该系统与其它系统相比主要具有以下特点:1)行业内对于服务器的监控一般使用代理插件方式,该方式对服务器本身有性能消耗,且属于有创操作,而本研究所设计开发的云计算平台监控系统从虚拟化底层获取服务器运行数据,有效地解决了代理模式下对上层系统的影响问题,可以更好满足云计算环境下大规模部署的要求。2)本系统可以同时对虚拟化系统和传统物理系统进行监控,在监控层面统一部署,统一调度,更加适合运营商集约化工作的要求。3)传统的监控系统一般通过现场告警、邮件推送等方式进行告警信息的通知。在互联网环境下,本系统的使用人员可通过及时通信工具随时知晓系统运行情况,并根据告警紧急程度判断是否需要介入处理。在系统设计与实现过程中主要针对以下问题进行了研究:1)分布式系统架构:研究大规模云计算环境下的系统部署架构,将传统的多合一架构进行拆解,通过分布式方式,将监控系统的组件进行分离和重组,提高系统的可扩展性,以及适配云计算环境的高性能要求。2)无代理方式监控:监控数据的获取,不通过操作系统层面安装代理方式,而通过底层虚拟化环境方式获取。对于上层承载系统,做到监控无感知。且此方式对于云计算环境下的海量监控需求,在性能和稳定性上均较有代理方式有较大优势。目前,云计算平台监控系统已在运营商环境下上线试运行,解决了云计算环境下维护人员所要面对的实实在在问题。将系统的性能、告警数据通过历史记录呈现、告警微信推送的方式,改变传统依靠人盯方式的监控运营方式。以前人工方式的巡检和监控需要投入4人/天才能进行一次巡检,且告警的处理时间一般在2小时。使用云计算平台监控系统以后,基础巡检工作自动完成,并能实时产生告警,告警处理速度也提高到15分钟。有效改善运营商环境下对系统故障的预警预判速度、提高告警的处理效率。