论文部分内容阅读
通信综合网络管理系统是各大电信运营商为了保障电信网络高效、可靠、经济、安全地运行,最大限度利用网络资源,降低运营成本,向用户提供高质量、高可靠性服务而建立的一种规模庞大的管理系统。其中的告警管理系统往往担负着非常重要的责任——对电信网络中的设备上报的告警信息进行采集、分析、呈现及处理。但是,如何保证告警信息的完整性,更好地实现对告警信息的管理,却是一大难题。
由于设计时的系统容量问题,当出现告警风暴或者其他突发情况时,告警信息采集系统常常会丢失部分告警,因此漏报一些严重告警,导致断站等严重通信事故的发生。为了尽量减少漏报,保证系统采集的告警的完整性,必需为告警管理系统设计一个告警同步模块来解决此类问题。在设计相关模块时,又应该注意哪些问题呢?
关注四大问题
作为告警管理系统的重要组成模块,告警同步模块能通过定时或手动的方式,对设备未成功上报的告警进行采集,从而保证告警信息的完整性,更好地实现告警管理功能。但是,告警同步模块能否高效、可靠的工作,能否让系统在进行告警管理、维护时更方便易用,这些问题在早期的系统设计中往往并没有被考虑。所以,对告警同步模块的优化应该关注可靠性、效率、易用性和可维护性。
加强告警同步模块的可靠性,一方面需要实现统一调度——让调度子模块统一调度告警同步模块的采集功能,另一方面则要加入对告警同步采集的状态的跟踪机制和失败后自动重启的机制,以确保设定的任务能被可靠执行。
面对告警风暴,报警信息同步的效率是系统能否及时发现、处理问题的关键,如果将同步告警工作流中的比对环节提前,则可以提高同步工作流的工作效率。
配置界面的易用性能够提升处理问题的效率。所以前台配置界面一定要做到简洁易用,且需支持手动和自动方式触发告警同步功能。
详细的工作日志,是问题可追溯的保证。若日后系统需要升级,能方便地导出工作日志是非常重要的,要便于系统维护。
优化同步告警工作流
在设计模块时,同步告警工作流需要采用与实时告警工作流不同的处理流程,才能适应同步告警高冗余度,低时效性的需求。流程变化主要有:
1. 告警对比过程应提前,在原始同步告警一进入告警同步工作流后,即对原始同步告警进行解析,并将相关字段与现有活动告警进行比对,尽早发现冗余告警。比对时,接收的每条同步告警应直接与活动告警表进行比对。
2.. 在告警比对处理流程过后,会有以下三种情况:部分同步告警已在当前活动告警表中存在,丢弃;部分同步告警未出现在当前活动告警表中,视为丢失的告警,进行后续处理;部分活动告警表中的告警未出现在同步告警中,视为已清除告警,系统将生成相应的清除告警,并放入到活动告警工作流中。
3. 告警同步采集将首先读取数据库中属于该网络设备的所有告警的“最大告警发生时间”。在后续告警比对过程中,仅对告警发生时间小于该最大告警发生时间的同步告警进行处理,大于该值的同步告警将直接丢弃。
4. 同步状态相关告警将由接口生成自身告警与同步告警一起发送至同步工作流,由同步工作流负责更新同步任务表。
5. 同步告警工作流在处理完当前告警同步采集的所有同步告警后,会发“同步采集处理完成”消息,通知告警同步调度子模块。
现场实践数据显示,经过这种改造,过去告警系统丢失10%左右告警数据的问题可被很好地解决。改进后,告警数据采集的完整度可超过96%。
由于设计时的系统容量问题,当出现告警风暴或者其他突发情况时,告警信息采集系统常常会丢失部分告警,因此漏报一些严重告警,导致断站等严重通信事故的发生。为了尽量减少漏报,保证系统采集的告警的完整性,必需为告警管理系统设计一个告警同步模块来解决此类问题。在设计相关模块时,又应该注意哪些问题呢?
关注四大问题
作为告警管理系统的重要组成模块,告警同步模块能通过定时或手动的方式,对设备未成功上报的告警进行采集,从而保证告警信息的完整性,更好地实现告警管理功能。但是,告警同步模块能否高效、可靠的工作,能否让系统在进行告警管理、维护时更方便易用,这些问题在早期的系统设计中往往并没有被考虑。所以,对告警同步模块的优化应该关注可靠性、效率、易用性和可维护性。
加强告警同步模块的可靠性,一方面需要实现统一调度——让调度子模块统一调度告警同步模块的采集功能,另一方面则要加入对告警同步采集的状态的跟踪机制和失败后自动重启的机制,以确保设定的任务能被可靠执行。
面对告警风暴,报警信息同步的效率是系统能否及时发现、处理问题的关键,如果将同步告警工作流中的比对环节提前,则可以提高同步工作流的工作效率。
配置界面的易用性能够提升处理问题的效率。所以前台配置界面一定要做到简洁易用,且需支持手动和自动方式触发告警同步功能。
详细的工作日志,是问题可追溯的保证。若日后系统需要升级,能方便地导出工作日志是非常重要的,要便于系统维护。
优化同步告警工作流
在设计模块时,同步告警工作流需要采用与实时告警工作流不同的处理流程,才能适应同步告警高冗余度,低时效性的需求。流程变化主要有:
1. 告警对比过程应提前,在原始同步告警一进入告警同步工作流后,即对原始同步告警进行解析,并将相关字段与现有活动告警进行比对,尽早发现冗余告警。比对时,接收的每条同步告警应直接与活动告警表进行比对。
2.. 在告警比对处理流程过后,会有以下三种情况:部分同步告警已在当前活动告警表中存在,丢弃;部分同步告警未出现在当前活动告警表中,视为丢失的告警,进行后续处理;部分活动告警表中的告警未出现在同步告警中,视为已清除告警,系统将生成相应的清除告警,并放入到活动告警工作流中。
3. 告警同步采集将首先读取数据库中属于该网络设备的所有告警的“最大告警发生时间”。在后续告警比对过程中,仅对告警发生时间小于该最大告警发生时间的同步告警进行处理,大于该值的同步告警将直接丢弃。
4. 同步状态相关告警将由接口生成自身告警与同步告警一起发送至同步工作流,由同步工作流负责更新同步任务表。
5. 同步告警工作流在处理完当前告警同步采集的所有同步告警后,会发“同步采集处理完成”消息,通知告警同步调度子模块。
现场实践数据显示,经过这种改造,过去告警系统丢失10%左右告警数据的问题可被很好地解决。改进后,告警数据采集的完整度可超过96%。