论文部分内容阅读
随着网络规模的不断扩大,用户数目的日益增多,网络管理员的工作难度也越来越大。网络中的负荷容易不均匀,某些部分因线路上的负荷太重而造成整个网络性能严重下降;某些IP和MAC地址的绑定非法;服务器出现故障,无法连接;各种不同厂商的不同类型的设备的工作状态无法方便获知并管理;这些都是网络管理中遇到的棘手问题。为了使结构复杂的网络高效运行,就必须建立针对多厂商、多类型设备的网络管理系统,提高全网的维护管理效率,降低管理成本。故障管理是一个网管系统的核心功能。网管系统故障处理的基本流程为:监视并收集网元的使用率、各种状态参数、流量等信息。设置门限,当网元的状态参数超过所设定的门限时,产生告警。分析告警信息,定位故障和可能的故障原因。将故障信息、采集到的部分关注数据等有价值的信息保存到数据库,方便随时浏览。如果故障符合一定的严重度,以短信或者电子邮件的方式通知管理员。一些故障可以自动被解决,一些故障需要等待人工解决。管理员可以随时通过网管客户端查询、过滤、统计、确认、清除、导出告警信息,对整个网络的状态有整体的清晰把握。网管系统的故障处理功能减少了网络故障时间,提高了网络可用性,使网络能尽快恢复至正常,以保证网络高效运行。本文首先介绍了网元的信息采集方法。主动告警系统的告警信息采集方法,如基于SNMP轮询采集、基于Syslog的日志记录;被动的网元信息采集方法,如通过SNMP协议,被管设备出现某种故障时主动发送Trap时间通知网管系统。随后介绍了根据采集到的网元信息产生告警,对告警进行分析,对告警进行合并和转化,将多个告警合并成一条具有更多信息量的告警,确定能反应故障根本原因的告警,定位故障的可行方法。现在已提出的告警分析方法有基于案例推理、基于规则推理、基于代码方法和基于数据挖掘的方法。然后设计了对生成的告警的一系列处理动作,如告警的查询、过滤、统计、确认、清除等。针对系统中出现的故障,网管系统中的邮件、短信、故障工单能使管理员及时发现故障,及时通过故障确认、故障自动恢复、故障连锁诊断等方式作出处理。最后,采用了分布式的系统设计,这样的设计是自适应的基于策略的管理,提供分布查找与监测,能智能过滤,提供分布式阀值监测,动态轮询和判断逻辑。在具体实现方面,介绍了Java应用程序的轻量级框架Spring,对象关系映射持久化框架Hibernate,Java消息服务JMS的基本知识,以及这几个框架的整合过程,并提出了网管系统故障管理的框架搭建和具体实现的方法。