论文部分内容阅读
【摘 要】 基于Nagios及其插件构建航天中心医院网络监控平台实现对各类设备与服务的综合监控 。本文简述该系统的原理,功能与特性。简单描述了我院实现的监控系统的应用情况。 最后对系统存在的问题及应用完善前景进行了讨论。
【关键词】 nagios 网络服务监控 联动报警
【中图分类号】 R197.324 【文献标识码】 A 【文章编号】 1671-5160(2014)03-0263-01
引言
针对航天中心医院网络监控管理的需求,我们选择了基于开源软件Nagios的网络监控管理系统的框架,实现对网络中的设备主机以及各种应用服务的故障预警及性能采集和展现。管理人员通过浏览器随时随地对网络运行的状况进行实时监控;对网络性能的采集,则为领导层提供准确的统计信息和趋势预测,为医院的下一步网络建设提供参考。
1 Nagios监控系统简介
Nagios是一个监视系统运行状态和网络信息的系统,它是一种开源且免费的管理工具,运行在Linux/Unix平台之上,能监视指定的本地或远程主机以及服务,提供报警功能以及Web界面,方便系统管理人员查看网络状态,各种系统问题,以及事件日志等等。
Nagios常规由一个主程序(Nagios)、一个插件程序(Nagiosplugins)和四个可选的扩展应用(NRPE、NSCA、NSClient++和NDOUtils)组成。Nagios和Nagios-plugins是服务器端的必须组件。在四个主要扩展应用中,NRPE和NSClient++分别被部署到被监控的Linux/Unix和Windows主机上以实现Nagios服务器对被监控主机资源的检测;NSCA用来让被监控的Linux/Unix主機主动将资源信息发送给Nagios服务器;NDOUtils用来将Nagios的各种事件信息存入数据库,以实现对这些数据的快速检索和处理。Nagios可以通过在被监控设备上安装agent的方式进行监控,也支持SNMP协议的监控方式。
Check_MK是一款新兴的Nagios插件,能够自动清查主机、收集性能数据,并且提供了一套更友善的用户界面。check_mk使用一种全新的方式从操作系统和网络组件来获取相关数据,采用了Check_MK插件之后就可以淘汰掉老旧的NRPE、check_by_ssh、NSClient和check_snmp等插件。Check_MK一次采集把数据全部抓取,减少了监控端的请求次数,因此监控端的CPU使用率显著减少。同时,Check_MK还能通过WEB界面管理被监控设备的配置,自动发现并配置被监控设备上的监控项目,因此使用也比较友好。
2 航天中心医院的监控平台应用
航天中心医院我们将Nagios以及Check_mk部署在一台Linux服务器上,对航天中心医院的两个数据中心进行监控管理,主要的监控内容归纳如下:Windows类服务器、Unix类服务器、网络设备、机房空调、UPS电源以及各类网络应用服务等。其中,网络设备、机房空调、UPS电源采用SNMP方式采集监控数据;Windows类服务器、Unix类服务器以及服务器上的服务采用安装代理的方式采集监控数据。服务器主要监测其CPU使用率、内存使用率、磁盘使用率和系统时间等;网络设备需要监测丢包率、带宽和流量等;网络应用服务主要检测HTTP服务的状态、数据库表空间使用率等。所有这些监控目标都可通过一个Web页面进行集中检查,当主机或者服务状态异常时会用黄色或者红色显示,让人一目了然。如图所示:
图一 单个监控设备运行情况
在针对上述监测对象的监测过程中,发现故障后可以进行事件记录,并根据事件通知规则通过E-mail或者短信等工具等向系统管理员发出警报;当监测到部分应用服务状态异常时,nagios系统还能触发预定义的修复脚本,尝试重新启动应用服务,实现部分服务的自修复。我们在监控服务器上安装了短信猫,利用短信服务程序SMSTOOLS发送GSM短信,实现了故障发生时第一时间通知机房管理员,有效提高了事故处理效率。
3 讨论与结束语
利用开源的Nagios,Check_mk,Smstools软件,成功搭建了我院的网络系统监控平台,从而实现了对网络设备、服务器等设备的实时监控,并实现了短信报警的功能。系统在我院应用以来,为医院网络的日常维护、故障诊断以及调整优化提供了科学依据,大大提高了医院网络的管理水平,取得了良好地效果。搭建的系统具有以下特征:
(1)管理范围广:除了网络设备、服务器主机外,对网络中的应用服务、机房温度、UPS电源状态等也可进行监控管理;
(2)结构合理:Nagios设计了一个开放性好效率高的框架,具体功能模块通过插件来实现,用户可以视需求来设计有关插件,可扩展性强;
(3)操作简便:系统基于B/S结构,使管理人员可以随时随地通过Web页面对网络进行管理;
(4)修复功能:利用事件处理脚本实现了部分故障的自动修复。
同时,我们也发现,利用开源软件构建的网络监控也存在一些不足,例如配置比较复杂,文档支持不是很完善,没有专门的售后支持人员等;在系统配置过程中的也遇到了许多问题,需要比较多时间去解决。同时,实现的网络监控管理系统还存在一些可改进的地方,如完善系统在网络拓扑上的显示能力,结合NagVis等插件实现机房设备可视化显示等,还有较大的发展空间。
参考文献
[1]尤国君,浅谈基于Nagios的网管系统[J].价值工程 2010,29:254-5
[2] 李正,吕坚,付荣国,浅谈基于Nagios的故障告警系统[J].江西通信科技2011:16-8
[3]陶利军.掌控构建Linux系统Nagios监控服务器[M].清华大学出版社,2013
【关键词】 nagios 网络服务监控 联动报警
【中图分类号】 R197.324 【文献标识码】 A 【文章编号】 1671-5160(2014)03-0263-01
引言
针对航天中心医院网络监控管理的需求,我们选择了基于开源软件Nagios的网络监控管理系统的框架,实现对网络中的设备主机以及各种应用服务的故障预警及性能采集和展现。管理人员通过浏览器随时随地对网络运行的状况进行实时监控;对网络性能的采集,则为领导层提供准确的统计信息和趋势预测,为医院的下一步网络建设提供参考。
1 Nagios监控系统简介
Nagios是一个监视系统运行状态和网络信息的系统,它是一种开源且免费的管理工具,运行在Linux/Unix平台之上,能监视指定的本地或远程主机以及服务,提供报警功能以及Web界面,方便系统管理人员查看网络状态,各种系统问题,以及事件日志等等。
Nagios常规由一个主程序(Nagios)、一个插件程序(Nagiosplugins)和四个可选的扩展应用(NRPE、NSCA、NSClient++和NDOUtils)组成。Nagios和Nagios-plugins是服务器端的必须组件。在四个主要扩展应用中,NRPE和NSClient++分别被部署到被监控的Linux/Unix和Windows主机上以实现Nagios服务器对被监控主机资源的检测;NSCA用来让被监控的Linux/Unix主機主动将资源信息发送给Nagios服务器;NDOUtils用来将Nagios的各种事件信息存入数据库,以实现对这些数据的快速检索和处理。Nagios可以通过在被监控设备上安装agent的方式进行监控,也支持SNMP协议的监控方式。
Check_MK是一款新兴的Nagios插件,能够自动清查主机、收集性能数据,并且提供了一套更友善的用户界面。check_mk使用一种全新的方式从操作系统和网络组件来获取相关数据,采用了Check_MK插件之后就可以淘汰掉老旧的NRPE、check_by_ssh、NSClient和check_snmp等插件。Check_MK一次采集把数据全部抓取,减少了监控端的请求次数,因此监控端的CPU使用率显著减少。同时,Check_MK还能通过WEB界面管理被监控设备的配置,自动发现并配置被监控设备上的监控项目,因此使用也比较友好。
2 航天中心医院的监控平台应用
航天中心医院我们将Nagios以及Check_mk部署在一台Linux服务器上,对航天中心医院的两个数据中心进行监控管理,主要的监控内容归纳如下:Windows类服务器、Unix类服务器、网络设备、机房空调、UPS电源以及各类网络应用服务等。其中,网络设备、机房空调、UPS电源采用SNMP方式采集监控数据;Windows类服务器、Unix类服务器以及服务器上的服务采用安装代理的方式采集监控数据。服务器主要监测其CPU使用率、内存使用率、磁盘使用率和系统时间等;网络设备需要监测丢包率、带宽和流量等;网络应用服务主要检测HTTP服务的状态、数据库表空间使用率等。所有这些监控目标都可通过一个Web页面进行集中检查,当主机或者服务状态异常时会用黄色或者红色显示,让人一目了然。如图所示:
图一 单个监控设备运行情况
在针对上述监测对象的监测过程中,发现故障后可以进行事件记录,并根据事件通知规则通过E-mail或者短信等工具等向系统管理员发出警报;当监测到部分应用服务状态异常时,nagios系统还能触发预定义的修复脚本,尝试重新启动应用服务,实现部分服务的自修复。我们在监控服务器上安装了短信猫,利用短信服务程序SMSTOOLS发送GSM短信,实现了故障发生时第一时间通知机房管理员,有效提高了事故处理效率。
3 讨论与结束语
利用开源的Nagios,Check_mk,Smstools软件,成功搭建了我院的网络系统监控平台,从而实现了对网络设备、服务器等设备的实时监控,并实现了短信报警的功能。系统在我院应用以来,为医院网络的日常维护、故障诊断以及调整优化提供了科学依据,大大提高了医院网络的管理水平,取得了良好地效果。搭建的系统具有以下特征:
(1)管理范围广:除了网络设备、服务器主机外,对网络中的应用服务、机房温度、UPS电源状态等也可进行监控管理;
(2)结构合理:Nagios设计了一个开放性好效率高的框架,具体功能模块通过插件来实现,用户可以视需求来设计有关插件,可扩展性强;
(3)操作简便:系统基于B/S结构,使管理人员可以随时随地通过Web页面对网络进行管理;
(4)修复功能:利用事件处理脚本实现了部分故障的自动修复。
同时,我们也发现,利用开源软件构建的网络监控也存在一些不足,例如配置比较复杂,文档支持不是很完善,没有专门的售后支持人员等;在系统配置过程中的也遇到了许多问题,需要比较多时间去解决。同时,实现的网络监控管理系统还存在一些可改进的地方,如完善系统在网络拓扑上的显示能力,结合NagVis等插件实现机房设备可视化显示等,还有较大的发展空间。
参考文献
[1]尤国君,浅谈基于Nagios的网管系统[J].价值工程 2010,29:254-5
[2] 李正,吕坚,付荣国,浅谈基于Nagios的故障告警系统[J].江西通信科技2011:16-8
[3]陶利军.掌控构建Linux系统Nagios监控服务器[M].清华大学出版社,2013