基于统一管控的基础平台性能提升研究

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:zhoulei1964
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:描述信息化基础平台性能下降的原因,提出使用资源及应用状态集中监控、事件处理状态跟踪、安全漏洞更新统一管理等方法来提升平台性能
  关健词:统一管控;事件跟踪;数据中心;安全
  中图分类号:TP393 文献标识码:A
  文章编号:1009-3044(2019)31-0269-02
  信息化是实现业务高效运行的重要手段,细化到具体业务就对应着一个个信息化的应用,信息化基础平台的计算性能及系统运行稳定性直接影响到应用的可用性,应用的是否可用决定业务的可持续性,保障信息化基础平台的性能是线上业务流畅运行的基础必要条件。
  1问题现状
  实际使用中经常因缺少高效的问题修复与安全保障支持,基础平台常发生整体性能下降的现象,常见的主要原因包括:
  1.1应用的全面可用性监控信息不完整,故障发生的历史情况无法跟踪
  随着信息化的不断推进,每年建设的应用数量在逐年增加,应用的使用频率直接和业务期直接相关,有些应用使用量、使用面较广,每天都有很多人在访问使用,有些应用使用的频率较低,一年中只有在业务期的时候使用,应用的质量直接由设计应用的工程技术人员的水平决定,虽然应用在上线前已经做了很多测试工作,但这并不能保证应用运行时完全稳定可靠,一些设计较差的应用在遇到一些意外故障时,可能会大量消耗计算资源,较小范围影响可能涉及相关应用故障,若数据层面的读写锁故障可能会影响数据库系统,进行影响整个平台的性能下降。缺乏全面的监控信息与故障历史记录会降低问题处理效率,例如一个关联多个应用的接口故障了,首先的现象是某一应用不可用,排除问题并不能快速定位到故障源头,导致相关应用相续出现故障,偶发性还会引起平台整体性能下降,若不能及时找到问题源并修复,给使用者的体验是应用反应慢、基础平台性能的不行。
  1.2故障事件修复响应不及时,故障问题修复处理的历史情况缺乏关联性记录
  故障的修复时间直接影响到用户的使用体验,若每次都是现场发挥临阵出招去修复问题,一半以上的情况会耽误修复的最佳时间,同时发生了多个问题丢个现场工程师,现场人员一般是按照问题的顺序一个个的处理,但现在业务系统之间都有相互关联性,有时出现故障的应用并非问题源头,该问题可能是由其他应用故障后关联引起的,这时非常需要借助历史问题处理情况作为有效参考,通过借鉴历史问题处理情况可以有效协助问题源定位,缩短事件处理的时间。再有事件处理任务被分配到具体人员后,经过分析后发现需要多方协同处理,在协同处理过程中常会出现沟通内容有偏差及问题响应不及时,因工程人员同时负责的工作任务一般较多,时间久了难免会出现信息记录模糊或任务遗忘的情况,不能及时有效跟踪、隔离、修复故障可能引起连锁反应,进行影响应用的用户使用体验及意外降低整体平台性能。
  1.3漏洞问题或安全问题的响应及安全防护调整变更效率低
  信息化系统一般是应用软件,与应用软件相关联的包括中间件、操作系统、数据库等,这一系列软件中的任意一个被曝出现漏洞问题都会影响整体的运行稳定性与安全性,最基础的方法是发现一个,对比资产清单逐个修复,操作是人工实施的为主,人工操作难免会出现遗漏,随着计算资源与应用的资源的不断扩大,修复的工作量在越来越大,出现遗漏的量一定会随之增加,没有有效的事件处理记录及处理复查审核,很难保证每次的漏洞修复已经全面完成了,加强人工处理复查则工作量大、效率低。
  2改进方法
  经过分析以上问题同时兼顾安全管理的需求,设计使用统一管理平台的概念来改善问题,主要包括资源及应用信息全面监控、问题修复全流程跟踪、漏洞安全问题批量处理。
  2.1资源及应用统一监测管理
  资源状态监测主要包括基础存储设施、计算设备、网络设备等资源的状态监控,这些资源的状态直接决定信息化基础平台的工作状态。存储设施一般来自不同厂商,提供的接口以SNMP协议为主,监控主要采集设备报警状态、设备性能状态、磁盘占用比例等,采集报警状态用于及时获取磁盘故障、控制器故障等信息,并及时向厂商报修,避免了问题进一步扩大及减少人工巡检工作量,采集设备性能状态用于资源动态调整参考,基础平台一般同时有多套不同品牌的存储设备,每套存储上存储着不同批次的应用,随着应用业务期的来临部分应用的业务量有上升,关联存储设备的读写数据量也会随之增加,当读写量到达一定程度存储性能会下降,参照采集的存储集性能状态信息,及时将应用业务或虚机迁移到负载较轻的虚机,进而提升平台服务性能。网络设备的监控采集使用SNMP协议,主要采集设备的性能状态及流量信息,采集的数据用于监控网络的整体健康状态及异常流量发现,通过发现网络设备负载及流量的异常变化,及时做好异常应急处理准备,较多情况是网络或应用被攻击了。计算资源方面主要采集计算设备的CPU、内存、磁盘、网络使用量及报警信息,通过收集报警信息及时在计算设备发生故障的第一时间进行报修,计算资源一般包括多个不同架构技术的软硬件设备,通过统一的信息收集与分析可以及时发现那个计算资源的计算负载量比较大、哪个计算资源的网络流量比较大、哪个计算资源长期工作在高负荷状态下,通过这些信息的定期汇总与历史数据分析,及时在维护期内进行应用资源配置调整,进行提升整体平台的性能负载状态。
  应用的统一监控管理分成主机状态信息监控及应用状态信息监控二部分,主机状态信息的监控使用SNMP及客户端信息采集相结合的方式,SNMP协议提供的主机监控项一般包括CPU、内存、磁盘空余空间、网络流量等标准信息的收集,有些情况下需要依据主机部署的应用监控应用对应的端口状态、关键文件变动、目录内容的变化等,使用SNMP協议一般无法完成该功能,需要使用对应的客户端软件来完成信息收集与传送,通过以上信息的收集实现主机性能的监测与及时调整。应用状态信息的监控一般采集用无客户端模式,在管理平台上使用HTTP监测或TCP监测插件来监控应用服务状态是否可用,在管理平台对监控的应用依据业务逻辑进行关联性配置与描述,当应用问题发生时依据业务关联性描述应用状态能较精确的发现问题的源头,进而保障了整体平台性能提升。
  2.2事件处理全面跟踪
  依据基础的计算资源池、主机资源、应用信息、网络IP资源建立基础资源库,依据常用事件处理规则建立事件库,事件库包括事件标识号、事件发生时间、报警人、状态描述、故障应用、事件受理人、关联应用、关系资源、处理过程描述、处理完成时间,依据基础资源库、事件库按照事件的处理流程及处理过程生成事件处理流程库,通过事件处理流程库留存问题处理过程中所有工程技术信息,便于后期工程人员参考,同时通过事件跟踪机制协助工程人员进行进度控制,所有事件的处理效率得到提升,从侧面提升了平台的性能。
  2.3安全漏洞问题批量响应
  漏洞问题是网络安全重点关注的问题,一些操作系统、应用的安全漏洞常会导致特权泄漏及信息被盗问题,考虑到一些漏洞问题的紧迫性,通过防护与打补丁同行的模式来保障安全,实现方式是在主机部署IPS及软补丁防护客户端,在控制中心配置定期进行系统及应用漏洞检测并自动启用漏洞防护软补丁策略,遇紧急情况通过平台发起实时检测与策略下发,主机层面通过前期部署的监控客户端实现远程补丁更新,通过防与补共进的方式有效避免安全问题扩散,为平台性能的提升做好安全保障。
  3总结
  通过资源及应用状态监控、事件处理状态跟踪、安全漏洞更新的统一管理,平台的性能有所改善、应用的使用体验得到了提升。在大部分主要功能完成部署及使用磨合一段时间后,相对于前期基础平台及应用软件的故障时间缩短了靠近一半,主要借助于应用故障的及时预警,通过事件处理的全面跟踪管理及广泛应用状态监控,事件处理的效率得到了提升,事件问题源头的误判率减少了很多,在安全漏洞方面,部署统一的IPS及软补丁防护系统后,安全漏洞的处理效率得到了明显提升,因漏洞引发的安全事件大量减少,安全的及时有效保障、业务应用的快速修复协同避免计算资源的额外浪费及性能下降,助力平台整体性能的提升。
  在实际实施及使用过程中发现还有很多问题,如应用资源的监控细化程度还不够,有时应用服务未挂起但应用已不工作,应用状态监控的有效性及颗粒度还需继续细化,事件处理的跟踪信息及流程还不够完善,需要继续完善事件要素、改善信息记录流程等,这些都是经后需要继续改进与研究的方向。
其他文献
摘要:自动化软件缺陷定位方法能够在无人工干预下快速定位软件中缺陷位置,但是不少缺陷定位方法存在定位准确性低的问题。为了提升软件缺陷定位的准确性,提出一种基于文化粒子群算法的软件缺陷定位方法CAPSOFaL,该方法使用缺陷程序实体构建算法种群,通过两个进化空间的协作得到最优解,并通过分析最优解得到测试程序内的真实缺陷位置。该方法能够减少冗余信息对实体怀疑值计算的干扰,并显著提升真实缺陷位置在缺陷报告
摘要:随着核电产业的迅猛发展,核电设计软件需求量日益增加。针对核电计算程序在测试中遇到的Oracle问题,应用蜕变测试(MR)技术能够得到有效解决。但是目前基于蜕变测试技术开发的软件大多数运用手动的方式,不但效率低,而且精确度不高,因此研究出一种核电蜕变测试工具至关重要。本文主要研究了核电蜕变测试工具(半自动化)的设计思路,其中包括此工具的目的、算法和功能,旨在提高核电计算程序的测试效率。  关键
摘要:伴随着我们国家社会发展和科学技术的进步,智能化科技化逐渐成为趋势,与此同时高新技术逐渐被应用于大型工程项目之中,实现自动化控制。基于该背景,本文通过探究塔吊自动化控制与监控系统,以期能够为相关从业者提供一些参考。  关键词:塔吊;自动化;监控系统  中图分类号:TP311 文献标识码:A  文章编号:1009-3044(2019)31-0253-01  1概述  在建筑工程中塔吊是一种不可或
摘要:随着信息技术的迅速发展,利用多媒体技术完成教学工作已成为多数学校的常规要求,并且使多媒体教学质量得到更大程度的提高。该文首先概述了PowerPoint软件,其次讨论了PowerPoint软件的各种使用技巧,最后利用PowerPoint软件完成制作了多媒体课件,主要涵盖了母板的构思以及母板的设计等。  关键词:PowerPoint;多媒体课件;母版  中图分类号:TP37 文献标识码:A  文
摘要:大数据时代,人工智能理念在计算机网络技术发展体系中进行了有效的渗透,因此,为进进一步有效地促进我国计算机网络技术的智能化发展,文章主要分析了大数据时代人工智能化在计算机网络技术建设体系中的应用优势和具体应用,希望能够为相关课题性研究提供一定的参考价值。  关键词:大数据时代;人工智能;计算机网络技术;应用研究  中图分类号:TP393 文献标识码:A  文章编号:1009-3044(2019
摘要:随着大数据技术的发展,搜索引擎的关注度越来越高,搜索引擎技术也逐渐发展成为大数据应用最前线的领域,也是最容易产生价值的大数据应用。图片搜索是目前搜索引擎中搜索流量仅次于网页搜索的多媒体搜索项目,为了快速精准的实现图片搜索功能,论文从基于内容的图片搜索及基于文本的图片搜索两个方面进行分析、研究,解决了较高效精准地以图搜图的图片搜索问题。  关键词:大数据;搜索引擎;图片搜索;算法;相似度  中
摘要:在计算机科学中,关系的概念具有十分重要的意义。研究了包含一个关系的满足自反性、反自反性、对称性、反对称性的关系的计数问题。  关键词:二元关系;自反性;反自反性;对称性;反对称性  中图分类号:TP391 文献标识码:A  文章编号:1009-3044(2019)31-0280-02  1概述  在计算机科学中,关系的概念具有十分重要的意义。关系是离散数学中非常重要的内容,关系的性质有自反性
摘要:针对目前Web前端设计课程教学中存在的一些问题,结合MOOC教学模式的优点,探讨了Web前端设计课程新的教学模式,提出了在课程教学中将MOOC教学模式与传统教学模式深度相融合,扬长避短,能充分调动学生的学习兴趣与积极性,发掘学习者的潜能,培养学习者的创新意识,提高教学质量。  关键词:MOOC;教学模式;Web前端  中图分类号:G642 文献标识码:A  文章编号:1009-3044(20
摘要:对于模拟示波器的设计要求,除了需其有良好的线性锯齿扫描线和良好的垂直还原度,扫描信号和被测信号间的频率同步也至关重要。被测信号的周期为Tx,则锯齿波所产生的信号周期T需要满足为Tx的整数倍关系。当满足锯齿信号周期为被测信号周期的整数倍时,屏幕能稳定的显示信号波形,反之,波形会有轻微抖动,严重时肉眼根本无法完成观测。本文提供了一种水平系统和垂直系统同步的解决方案。  关键词:示波器;同步;方案
摘要:电子产品设计人员希望电子器件有更小的功耗、更强的功能、更低的价格,这就要求将更多的功能集成到单一的芯片。随着计算机技术的快速发展,电子系统设计过程中广泛使用VHDL语言,首先利用VHDL完成电子产品的系统设计,再通过EDA软件对VHDL程序进行编译,产生SDF文件,ModelSim通过调用SDF文件,使用Testbench生成相应的测试激励。以24进制计数为例,应用联合仿真,有效解决不同种类