论文部分内容阅读
当前以太网带宽不断提升,普通计算机价格不断下降,由普通PC计算机作为节点,构成基本运算单元,通过高速局域网相互连接,依靠软件进行协作进行工作的集群系统具有性价比高、扩展性好等优势,已经取代了传统的大型机或巨型机,在很多工业领域得到了广泛的应用,如信息检索、文本分析、大规模的数据挖掘、机器学习和时下流行的云计算。随着集群系统的使用日益广泛,人们为了提高集群系统的计算性能,不断增加集群系统中节点的数量。集群系统由普通PC机器组成,PC机器性能并不稳定,单个节点失效可能性非常大,在集群的规模不断扩大后,集群系统监控的作用越来越重要。通过监控,可以发现哪些节点已经失效,停止工作,得到系统中每个节点的利用情况,分析整个集群的运行趋势、性能极限和作业瓶颈,为系统管理员的管理工作和集群任务调度提供依据。本课题来自于子午工程数据中心,意在监控数据中心负责空间天气数值计算的集群系统的运行情况。本文根据子午工程数据中心的具体要求,设计和实现了一个集群监控系统,它的功能包括:采集集群系统中各个节点和系统负载、处理器各项使用时间、内存使用情况、硬盘使用情况、网络流量、系统相关的各种度量项;将各个节点的度量项汇总,存入数据库,以WEB网页的形式,展现给终端用户,供用户查询和使用这些监控项;根据用户设置的度量项的取值范围,对这些度量项进行量化分析,一旦发现存在异常度量项,则通过预定的通信规则,将异常的监控项发送给相关人员,以进行进一步的处理,减少不必要的损失。系统为C/S结构,包括分布在各个节点的代理程序,一定数量的汇总程序和前台显示界面。系统从/proc获取监控数据,使用XML进行数据传送,RRDTool来绘制数值类监控项的趋势图,后台包括RRD和MySQL两种类型的数据库。本文设计的集群监控系统,能够稳定有效的监控子午工程数据中心,具有占用系统资源少、反应灵敏等特点。