论文部分内容阅读
摘要:描述信息化基础平台性能下降的原因,提出使用资源及应用状态集中监控、事件处理状态跟踪、安全漏洞更新统一管理等方法来提升平台性能
关健词:统一管控;事件跟踪;数据中心;安全
中图分类号:TP393 文献标识码:A
文章编号:1009-3044(2019)31-0269-02
信息化是实现业务高效运行的重要手段,细化到具体业务就对应着一个个信息化的应用,信息化基础平台的计算性能及系统运行稳定性直接影响到应用的可用性,应用的是否可用决定业务的可持续性,保障信息化基础平台的性能是线上业务流畅运行的基础必要条件。
1问题现状
实际使用中经常因缺少高效的问题修复与安全保障支持,基础平台常发生整体性能下降的现象,常见的主要原因包括:
1.1应用的全面可用性监控信息不完整,故障发生的历史情况无法跟踪
随着信息化的不断推进,每年建设的应用数量在逐年增加,应用的使用频率直接和业务期直接相关,有些应用使用量、使用面较广,每天都有很多人在访问使用,有些应用使用的频率较低,一年中只有在业务期的时候使用,应用的质量直接由设计应用的工程技术人员的水平决定,虽然应用在上线前已经做了很多测试工作,但这并不能保证应用运行时完全稳定可靠,一些设计较差的应用在遇到一些意外故障时,可能会大量消耗计算资源,较小范围影响可能涉及相关应用故障,若数据层面的读写锁故障可能会影响数据库系统,进行影响整个平台的性能下降。缺乏全面的监控信息与故障历史记录会降低问题处理效率,例如一个关联多个应用的接口故障了,首先的现象是某一应用不可用,排除问题并不能快速定位到故障源头,导致相关应用相续出现故障,偶发性还会引起平台整体性能下降,若不能及时找到问题源并修复,给使用者的体验是应用反应慢、基础平台性能的不行。
1.2故障事件修复响应不及时,故障问题修复处理的历史情况缺乏关联性记录
故障的修复时间直接影响到用户的使用体验,若每次都是现场发挥临阵出招去修复问题,一半以上的情况会耽误修复的最佳时间,同时发生了多个问题丢个现场工程师,现场人员一般是按照问题的顺序一个个的处理,但现在业务系统之间都有相互关联性,有时出现故障的应用并非问题源头,该问题可能是由其他应用故障后关联引起的,这时非常需要借助历史问题处理情况作为有效参考,通过借鉴历史问题处理情况可以有效协助问题源定位,缩短事件处理的时间。再有事件处理任务被分配到具体人员后,经过分析后发现需要多方协同处理,在协同处理过程中常会出现沟通内容有偏差及问题响应不及时,因工程人员同时负责的工作任务一般较多,时间久了难免会出现信息记录模糊或任务遗忘的情况,不能及时有效跟踪、隔离、修复故障可能引起连锁反应,进行影响应用的用户使用体验及意外降低整体平台性能。
1.3漏洞问题或安全问题的响应及安全防护调整变更效率低
信息化系统一般是应用软件,与应用软件相关联的包括中间件、操作系统、数据库等,这一系列软件中的任意一个被曝出现漏洞问题都会影响整体的运行稳定性与安全性,最基础的方法是发现一个,对比资产清单逐个修复,操作是人工实施的为主,人工操作难免会出现遗漏,随着计算资源与应用的资源的不断扩大,修复的工作量在越来越大,出现遗漏的量一定会随之增加,没有有效的事件处理记录及处理复查审核,很难保证每次的漏洞修复已经全面完成了,加强人工处理复查则工作量大、效率低。
2改进方法
经过分析以上问题同时兼顾安全管理的需求,设计使用统一管理平台的概念来改善问题,主要包括资源及应用信息全面监控、问题修复全流程跟踪、漏洞安全问题批量处理。
2.1资源及应用统一监测管理
资源状态监测主要包括基础存储设施、计算设备、网络设备等资源的状态监控,这些资源的状态直接决定信息化基础平台的工作状态。存储设施一般来自不同厂商,提供的接口以SNMP协议为主,监控主要采集设备报警状态、设备性能状态、磁盘占用比例等,采集报警状态用于及时获取磁盘故障、控制器故障等信息,并及时向厂商报修,避免了问题进一步扩大及减少人工巡检工作量,采集设备性能状态用于资源动态调整参考,基础平台一般同时有多套不同品牌的存储设备,每套存储上存储着不同批次的应用,随着应用业务期的来临部分应用的业务量有上升,关联存储设备的读写数据量也会随之增加,当读写量到达一定程度存储性能会下降,参照采集的存储集性能状态信息,及时将应用业务或虚机迁移到负载较轻的虚机,进而提升平台服务性能。网络设备的监控采集使用SNMP协议,主要采集设备的性能状态及流量信息,采集的数据用于监控网络的整体健康状态及异常流量发现,通过发现网络设备负载及流量的异常变化,及时做好异常应急处理准备,较多情况是网络或应用被攻击了。计算资源方面主要采集计算设备的CPU、内存、磁盘、网络使用量及报警信息,通过收集报警信息及时在计算设备发生故障的第一时间进行报修,计算资源一般包括多个不同架构技术的软硬件设备,通过统一的信息收集与分析可以及时发现那个计算资源的计算负载量比较大、哪个计算资源的网络流量比较大、哪个计算资源长期工作在高负荷状态下,通过这些信息的定期汇总与历史数据分析,及时在维护期内进行应用资源配置调整,进行提升整体平台的性能负载状态。
应用的统一监控管理分成主机状态信息监控及应用状态信息监控二部分,主机状态信息的监控使用SNMP及客户端信息采集相结合的方式,SNMP协议提供的主机监控项一般包括CPU、内存、磁盘空余空间、网络流量等标准信息的收集,有些情况下需要依据主机部署的应用监控应用对应的端口状态、关键文件变动、目录内容的变化等,使用SNMP協议一般无法完成该功能,需要使用对应的客户端软件来完成信息收集与传送,通过以上信息的收集实现主机性能的监测与及时调整。应用状态信息的监控一般采集用无客户端模式,在管理平台上使用HTTP监测或TCP监测插件来监控应用服务状态是否可用,在管理平台对监控的应用依据业务逻辑进行关联性配置与描述,当应用问题发生时依据业务关联性描述应用状态能较精确的发现问题的源头,进而保障了整体平台性能提升。
2.2事件处理全面跟踪
依据基础的计算资源池、主机资源、应用信息、网络IP资源建立基础资源库,依据常用事件处理规则建立事件库,事件库包括事件标识号、事件发生时间、报警人、状态描述、故障应用、事件受理人、关联应用、关系资源、处理过程描述、处理完成时间,依据基础资源库、事件库按照事件的处理流程及处理过程生成事件处理流程库,通过事件处理流程库留存问题处理过程中所有工程技术信息,便于后期工程人员参考,同时通过事件跟踪机制协助工程人员进行进度控制,所有事件的处理效率得到提升,从侧面提升了平台的性能。
2.3安全漏洞问题批量响应
漏洞问题是网络安全重点关注的问题,一些操作系统、应用的安全漏洞常会导致特权泄漏及信息被盗问题,考虑到一些漏洞问题的紧迫性,通过防护与打补丁同行的模式来保障安全,实现方式是在主机部署IPS及软补丁防护客户端,在控制中心配置定期进行系统及应用漏洞检测并自动启用漏洞防护软补丁策略,遇紧急情况通过平台发起实时检测与策略下发,主机层面通过前期部署的监控客户端实现远程补丁更新,通过防与补共进的方式有效避免安全问题扩散,为平台性能的提升做好安全保障。
3总结
通过资源及应用状态监控、事件处理状态跟踪、安全漏洞更新的统一管理,平台的性能有所改善、应用的使用体验得到了提升。在大部分主要功能完成部署及使用磨合一段时间后,相对于前期基础平台及应用软件的故障时间缩短了靠近一半,主要借助于应用故障的及时预警,通过事件处理的全面跟踪管理及广泛应用状态监控,事件处理的效率得到了提升,事件问题源头的误判率减少了很多,在安全漏洞方面,部署统一的IPS及软补丁防护系统后,安全漏洞的处理效率得到了明显提升,因漏洞引发的安全事件大量减少,安全的及时有效保障、业务应用的快速修复协同避免计算资源的额外浪费及性能下降,助力平台整体性能的提升。
在实际实施及使用过程中发现还有很多问题,如应用资源的监控细化程度还不够,有时应用服务未挂起但应用已不工作,应用状态监控的有效性及颗粒度还需继续细化,事件处理的跟踪信息及流程还不够完善,需要继续完善事件要素、改善信息记录流程等,这些都是经后需要继续改进与研究的方向。
关健词:统一管控;事件跟踪;数据中心;安全
中图分类号:TP393 文献标识码:A
文章编号:1009-3044(2019)31-0269-02
信息化是实现业务高效运行的重要手段,细化到具体业务就对应着一个个信息化的应用,信息化基础平台的计算性能及系统运行稳定性直接影响到应用的可用性,应用的是否可用决定业务的可持续性,保障信息化基础平台的性能是线上业务流畅运行的基础必要条件。
1问题现状
实际使用中经常因缺少高效的问题修复与安全保障支持,基础平台常发生整体性能下降的现象,常见的主要原因包括:
1.1应用的全面可用性监控信息不完整,故障发生的历史情况无法跟踪
随着信息化的不断推进,每年建设的应用数量在逐年增加,应用的使用频率直接和业务期直接相关,有些应用使用量、使用面较广,每天都有很多人在访问使用,有些应用使用的频率较低,一年中只有在业务期的时候使用,应用的质量直接由设计应用的工程技术人员的水平决定,虽然应用在上线前已经做了很多测试工作,但这并不能保证应用运行时完全稳定可靠,一些设计较差的应用在遇到一些意外故障时,可能会大量消耗计算资源,较小范围影响可能涉及相关应用故障,若数据层面的读写锁故障可能会影响数据库系统,进行影响整个平台的性能下降。缺乏全面的监控信息与故障历史记录会降低问题处理效率,例如一个关联多个应用的接口故障了,首先的现象是某一应用不可用,排除问题并不能快速定位到故障源头,导致相关应用相续出现故障,偶发性还会引起平台整体性能下降,若不能及时找到问题源并修复,给使用者的体验是应用反应慢、基础平台性能的不行。
1.2故障事件修复响应不及时,故障问题修复处理的历史情况缺乏关联性记录
故障的修复时间直接影响到用户的使用体验,若每次都是现场发挥临阵出招去修复问题,一半以上的情况会耽误修复的最佳时间,同时发生了多个问题丢个现场工程师,现场人员一般是按照问题的顺序一个个的处理,但现在业务系统之间都有相互关联性,有时出现故障的应用并非问题源头,该问题可能是由其他应用故障后关联引起的,这时非常需要借助历史问题处理情况作为有效参考,通过借鉴历史问题处理情况可以有效协助问题源定位,缩短事件处理的时间。再有事件处理任务被分配到具体人员后,经过分析后发现需要多方协同处理,在协同处理过程中常会出现沟通内容有偏差及问题响应不及时,因工程人员同时负责的工作任务一般较多,时间久了难免会出现信息记录模糊或任务遗忘的情况,不能及时有效跟踪、隔离、修复故障可能引起连锁反应,进行影响应用的用户使用体验及意外降低整体平台性能。
1.3漏洞问题或安全问题的响应及安全防护调整变更效率低
信息化系统一般是应用软件,与应用软件相关联的包括中间件、操作系统、数据库等,这一系列软件中的任意一个被曝出现漏洞问题都会影响整体的运行稳定性与安全性,最基础的方法是发现一个,对比资产清单逐个修复,操作是人工实施的为主,人工操作难免会出现遗漏,随着计算资源与应用的资源的不断扩大,修复的工作量在越来越大,出现遗漏的量一定会随之增加,没有有效的事件处理记录及处理复查审核,很难保证每次的漏洞修复已经全面完成了,加强人工处理复查则工作量大、效率低。
2改进方法
经过分析以上问题同时兼顾安全管理的需求,设计使用统一管理平台的概念来改善问题,主要包括资源及应用信息全面监控、问题修复全流程跟踪、漏洞安全问题批量处理。
2.1资源及应用统一监测管理
资源状态监测主要包括基础存储设施、计算设备、网络设备等资源的状态监控,这些资源的状态直接决定信息化基础平台的工作状态。存储设施一般来自不同厂商,提供的接口以SNMP协议为主,监控主要采集设备报警状态、设备性能状态、磁盘占用比例等,采集报警状态用于及时获取磁盘故障、控制器故障等信息,并及时向厂商报修,避免了问题进一步扩大及减少人工巡检工作量,采集设备性能状态用于资源动态调整参考,基础平台一般同时有多套不同品牌的存储设备,每套存储上存储着不同批次的应用,随着应用业务期的来临部分应用的业务量有上升,关联存储设备的读写数据量也会随之增加,当读写量到达一定程度存储性能会下降,参照采集的存储集性能状态信息,及时将应用业务或虚机迁移到负载较轻的虚机,进而提升平台服务性能。网络设备的监控采集使用SNMP协议,主要采集设备的性能状态及流量信息,采集的数据用于监控网络的整体健康状态及异常流量发现,通过发现网络设备负载及流量的异常变化,及时做好异常应急处理准备,较多情况是网络或应用被攻击了。计算资源方面主要采集计算设备的CPU、内存、磁盘、网络使用量及报警信息,通过收集报警信息及时在计算设备发生故障的第一时间进行报修,计算资源一般包括多个不同架构技术的软硬件设备,通过统一的信息收集与分析可以及时发现那个计算资源的计算负载量比较大、哪个计算资源的网络流量比较大、哪个计算资源长期工作在高负荷状态下,通过这些信息的定期汇总与历史数据分析,及时在维护期内进行应用资源配置调整,进行提升整体平台的性能负载状态。
应用的统一监控管理分成主机状态信息监控及应用状态信息监控二部分,主机状态信息的监控使用SNMP及客户端信息采集相结合的方式,SNMP协议提供的主机监控项一般包括CPU、内存、磁盘空余空间、网络流量等标准信息的收集,有些情况下需要依据主机部署的应用监控应用对应的端口状态、关键文件变动、目录内容的变化等,使用SNMP協议一般无法完成该功能,需要使用对应的客户端软件来完成信息收集与传送,通过以上信息的收集实现主机性能的监测与及时调整。应用状态信息的监控一般采集用无客户端模式,在管理平台上使用HTTP监测或TCP监测插件来监控应用服务状态是否可用,在管理平台对监控的应用依据业务逻辑进行关联性配置与描述,当应用问题发生时依据业务关联性描述应用状态能较精确的发现问题的源头,进而保障了整体平台性能提升。
2.2事件处理全面跟踪
依据基础的计算资源池、主机资源、应用信息、网络IP资源建立基础资源库,依据常用事件处理规则建立事件库,事件库包括事件标识号、事件发生时间、报警人、状态描述、故障应用、事件受理人、关联应用、关系资源、处理过程描述、处理完成时间,依据基础资源库、事件库按照事件的处理流程及处理过程生成事件处理流程库,通过事件处理流程库留存问题处理过程中所有工程技术信息,便于后期工程人员参考,同时通过事件跟踪机制协助工程人员进行进度控制,所有事件的处理效率得到提升,从侧面提升了平台的性能。
2.3安全漏洞问题批量响应
漏洞问题是网络安全重点关注的问题,一些操作系统、应用的安全漏洞常会导致特权泄漏及信息被盗问题,考虑到一些漏洞问题的紧迫性,通过防护与打补丁同行的模式来保障安全,实现方式是在主机部署IPS及软补丁防护客户端,在控制中心配置定期进行系统及应用漏洞检测并自动启用漏洞防护软补丁策略,遇紧急情况通过平台发起实时检测与策略下发,主机层面通过前期部署的监控客户端实现远程补丁更新,通过防与补共进的方式有效避免安全问题扩散,为平台性能的提升做好安全保障。
3总结
通过资源及应用状态监控、事件处理状态跟踪、安全漏洞更新的统一管理,平台的性能有所改善、应用的使用体验得到了提升。在大部分主要功能完成部署及使用磨合一段时间后,相对于前期基础平台及应用软件的故障时间缩短了靠近一半,主要借助于应用故障的及时预警,通过事件处理的全面跟踪管理及广泛应用状态监控,事件处理的效率得到了提升,事件问题源头的误判率减少了很多,在安全漏洞方面,部署统一的IPS及软补丁防护系统后,安全漏洞的处理效率得到了明显提升,因漏洞引发的安全事件大量减少,安全的及时有效保障、业务应用的快速修复协同避免计算资源的额外浪费及性能下降,助力平台整体性能的提升。
在实际实施及使用过程中发现还有很多问题,如应用资源的监控细化程度还不够,有时应用服务未挂起但应用已不工作,应用状态监控的有效性及颗粒度还需继续细化,事件处理的跟踪信息及流程还不够完善,需要继续完善事件要素、改善信息记录流程等,这些都是经后需要继续改进与研究的方向。