论文部分内容阅读
摘 要:随着国网安徽省电力公司设备(资产)运维精益管理系统的上线,实现了横向、纵向多系统数据共享和业务融合,推动了生产管理信息化水平再上新台阶。文章针对系统建设过程中出现的数据访问反应慢、图形卡顿和接口稳定性差等问题做的系统调优进行了介绍,并阐述了PMS2.0系统深化应用的管理方法和相应措施。
关键词:系统架构;性能调优;“126”管控;深化应用
国网安徽省电力公司(以下简称“安徽公司”)为适应“三集五大”体系建设要求,支撑运维检修全过程精益化管理和电网资产的全寿命周期管理,更大范围地实现数据共享和业务融合,推动公司生产管理信息化水平再上新台阶,启动了设备(资产)运维精益管理系统(以下简称“PMS2.0”)建设工作。
PMS2.0围绕生产管理的全过程,以设备管理为中心,计划任务为主线进行设计,是生产精益化管理的重要支撑平台。系统包含标准中心、电网资源中心、计划中心、运维检修中心、监督评价中心和决策支持中心六大中心,系统用户覆盖了省电力公司本部、电科院、省检修公司、送变电公司、16家地市公司及其所辖72家县公司。
随着系统的建成及推广应用,逐渐暴露出系统架构不够优化、图形客户端运行缓慢、配抢工单频繁超时等问题。
1 系统架构介绍
安徽公司遵照国网统一发放的《SG-PMS2.0省公司系统安装配置手册》开展系统部署工作,系统总体架构如图1所示。
其中,省公司侧部署3台数据库服务器采用ORACLE11gRAC的集群方式对外提供服务,34台应用服务器分布在不同资源池、不同区域,分别按不同的程序功能部署了PMS2.0系统的各类应用程序,所有应用服务器均接入radware做负载均衡对外提供服务。
应用服务器按其部署服务划分为拓扑栅格服务14台,PMS主服务9台,接口服务6台,GIS服务4台,配网管控计算服务1台。部署拓扑栅格分区服务的14台服务器呈两两互备方式,避免单点故障;复用其中4台配置高的服务器并部署了数据代理和栅格前置服务,呈两两互备方式,避免单点故障。部署PMS主服务的9台服务器,复用其中4台机器额外部署了SGUAP服务、空间信息服务和配抢消息服务,呈相同服务多节点方式,避免单点故障。6台接口服务器中两台单独部署为配抢专用接口服务,呈两两互备方式,避免单点故障。另外4台部署对外接口、任务调度服务,同时还部署了PMS主服务以作备用。
2 性能优化
针对系统存在的性能问题,国网安徽省信通公司(以下简称“信通公司”)开展了数据库、图形和接口的相关优化工作,提升了PMS2.0运行稳定性及用户体验。
2.1 数据库优化
为解决系统运行缓慢、数据库服务器宕机问题,信通公司在国网典设的三节点ORACLE11g的RAC基础上,又额外异地部署了一套三节点的ADG备库,实现数据库快速切换、灾难性恢复及数据保护,当主库出现故障时,备库可以自动切换为主库,并对外提供服务。同时,将应用程序的JDBC连接串由常规的IP∶PORT改为URL∶PORT方式,通过域名系统(Domain Name System,DNS)进行域名解析,当数据库出现故障时主备库切换后,应用在不需要任何干预的情况下实现自动重连当前可用数据库;对最能体现数据库运行安全及运行质量的DBtime,事务响应时间,数据库等待事件数、活动会话走势、物理读写、CPU负载率、文件系统及表空间使用率等关键指标部署了监控措施,设置指标告警阈值;同时按日将执行时间较长的结构化查询语言(Structured Query Language,SQL)语句提取出来,数据库与应用系统专业人员联合分析,提出优化建议,部分SQL语句也同步报送国网总部开发分析,预先进行系统性能薄弱点的控制,避免因性能问题影响系统安全稳定运行。
2.2 图形架构优化
针对PMS2.0出现的图形编辑卡頓现象,信通公司通过对I6000监控系统主机运行关键数据的分析,发现该问题的主要影响因素为主机资源不足。系统使用24核CPU的虚拟机加载全省数据时,虚拟机CPU使用率指标长期居高不下,系统存在严重超负荷运转现象,导致用户前端操作卡顿现象频现。对此,信通公司协调硬件资源进行优化,及时扩容低配置虚拟机CPU至48核,并新增4台物理机(配置为80C/128G)同步投入运行。
在提升硬件资源、降低SQL响应时长后,PMS2.0系统响应速度有所提升,但图形编辑卡顿现象仍然存在,重要功能模块运行性能指标仍不理想。信通公司从监控指标的运行表象,分析发现在系统架构及程序设计上系统也需要进行进一步的优化处理,经过充分调研、比对、分析并测试后,决定从系统架构及数据分区方面开展优化调整,采用更改栅格拓扑服务数据加载机制,由加载全省数据改为加载地市数据,即“图形分区方案”。将各地市按照电网数据量大小、地市行政区域界限划分为6个区域,每个区域使用两台机器进行集群部署栅格拓扑服务,避免单点故障并负载均衡,从源头解决图形编辑卡顿问题,为开展各项业务应用提供了最大保障。
2.3 接口优化
针对PMS2.0与CMS营销业务应用系统接口稳定性较差,导致配抢工单超时率高达9.35‰的问题,信通公司创新提出营销侧接口独立部署的方案,将营销接口服务剥离出来,单独部署在4台新的服务器上,并作F5负载均衡,大幅提升了接口性能;同时在所有接口都增加了监控“握手”记录的机制,每次接口调用时,都会产生一条日志记录“握手”结果,极大地方便了问题定位与分析。
3 深化应用
3.1 管理方法
3.1.1 管理目标
安徽公司在项目建设中建立里程碑节点清晰的项目工作计划,在总体进度严格要求下依据任务紧迫性、实际开发及实施进度合理调整计划细节,以确保达到“细节可操作、节点可控制、整体可完成”的目标。 3.1.2 管理細则
为确保工程的顺利实施,安徽公司严格按照国家对系统集成项目管理的有关规定和系统实施方案,对项目实施过程中的进度、质量和资源的使用进行全过程的管理。按照“统一规划、统一标准、统一平台、统一建设”的原则,PMS2.0系统实施工作成立项目领导小组、项目管控组、项目工作组、实施组、技术支持组,为项目推进提供组织保障。
同时,安徽公司积极推行“126”管控模式,即围绕“一个计划”—里程碑计划,执行“两个方案”—工作方案、单轨上线方案,推行“六项机制”—分级负责制、周月例会机制、关键指标通报考核机制、进度节点管控机制、问题管控机制、部门间横向协同机制,细致分解工作任务项,落实各项工作责任方及时间节点。同时,要求各单位在严格执行省公司“126”管控模式及机制的基础上,要比照建立自己的管控机制,为项目进度及质量提供了保障。
3.2 用户培训
为保障系统应用效果,省公司组织16家地市公司的输变配专家关键用户进行集中培训,从中选拔出优秀学员作为培训老师,与项目组专家一起组成培训团队,赴地市公司开展驻地培训。同时,根据培训效果,组织人员对教材进行优化,以实用为主,突出差异,重点培训PMS2.0和PMS1.0在业务和流程上的差异,缩短培训时间,使基层人员能够尽快掌握。系统建设期间,累计培训12 854人次,培训范围覆盖管理人员及各个班组成员,培训覆盖率100%,为各单位业务正常开展打下坚实基础。
3.3 工具研发
随着PMS2.0系统上线运行,系统“应用情况指标”查询模块存在考核细度低于现场要求,功能完善进度慢等问题,影响了实际指标管控、分析工作。为此,安徽公司结合PMS2.0系统指标体系与本地基层实际业务应用情况,研发了“PMS智能管控分析平台”,以精益化管理为主线,以推进PMS2.0系统实用化应用为重点,统计查询各业务指标,提升各地市公司专业人员业务应用系统能力,建立统一、高效、集约的运维检修管理信息化平台,满足执行层、管理层和决策层需要,提升电网运检管理精益化水平。
“PMS智能管控分析平台”针对基础设备台账、生产业务数据、系统运行数据的各类指标进行分析、预警,秉承“以指标促应用,以应用促管理”理念,从月度、季度、年度3个维度对指标进行科学组合,强化指标评价对生产信息化专业管理的支撑作用,合理设置发布周期,科学指导各单位系统实用化推进,加大各单位管理改进和自我提升的关注度。
4 结语
PMS2.0是“三集五大”体系建设中的“大检修”体系内容,支撑了运维检修全过程精益化管理和电网资产的全寿命周期管理,安徽公司通过以上技术上、管理上的一系列措施,有效地提升了系统性能,提高了用户体验。目前,该系统已在安徽公司全面应用推广,系统运行稳定,功能应用可靠,有效支撑了安徽公司现有设备资产的运维检修、全寿命周期管理。
Optimization and application of equipment (asset)
operation and maintenance lean management system
Zhang Yongmei, Jia Hui, Tang Yixuan, Yao Zhen, Wang Li
(State Grid AnHui Information &Telecommunication Company, Hefei 230061, China)
Abstract: With the equipment (asset) operation and maintenance lean management system of State Grid Anhui Electric Power Company on the line, achieved a horizontal, vertical multi-system data sharing and business integration, and promoted the level of production management information to a new level. This paper introduces the system tuning in the process of system construction, such as slow data access, graphics caton and poor interface stability, and elaborated the deepen application management methods and the corresponding measures of the PMS2.0 system.
Key words: system structure; performance tuning; “126” management and control; deepen application
关键词:系统架构;性能调优;“126”管控;深化应用
国网安徽省电力公司(以下简称“安徽公司”)为适应“三集五大”体系建设要求,支撑运维检修全过程精益化管理和电网资产的全寿命周期管理,更大范围地实现数据共享和业务融合,推动公司生产管理信息化水平再上新台阶,启动了设备(资产)运维精益管理系统(以下简称“PMS2.0”)建设工作。
PMS2.0围绕生产管理的全过程,以设备管理为中心,计划任务为主线进行设计,是生产精益化管理的重要支撑平台。系统包含标准中心、电网资源中心、计划中心、运维检修中心、监督评价中心和决策支持中心六大中心,系统用户覆盖了省电力公司本部、电科院、省检修公司、送变电公司、16家地市公司及其所辖72家县公司。
随着系统的建成及推广应用,逐渐暴露出系统架构不够优化、图形客户端运行缓慢、配抢工单频繁超时等问题。
1 系统架构介绍
安徽公司遵照国网统一发放的《SG-PMS2.0省公司系统安装配置手册》开展系统部署工作,系统总体架构如图1所示。
其中,省公司侧部署3台数据库服务器采用ORACLE11gRAC的集群方式对外提供服务,34台应用服务器分布在不同资源池、不同区域,分别按不同的程序功能部署了PMS2.0系统的各类应用程序,所有应用服务器均接入radware做负载均衡对外提供服务。
应用服务器按其部署服务划分为拓扑栅格服务14台,PMS主服务9台,接口服务6台,GIS服务4台,配网管控计算服务1台。部署拓扑栅格分区服务的14台服务器呈两两互备方式,避免单点故障;复用其中4台配置高的服务器并部署了数据代理和栅格前置服务,呈两两互备方式,避免单点故障。部署PMS主服务的9台服务器,复用其中4台机器额外部署了SGUAP服务、空间信息服务和配抢消息服务,呈相同服务多节点方式,避免单点故障。6台接口服务器中两台单独部署为配抢专用接口服务,呈两两互备方式,避免单点故障。另外4台部署对外接口、任务调度服务,同时还部署了PMS主服务以作备用。
2 性能优化
针对系统存在的性能问题,国网安徽省信通公司(以下简称“信通公司”)开展了数据库、图形和接口的相关优化工作,提升了PMS2.0运行稳定性及用户体验。
2.1 数据库优化
为解决系统运行缓慢、数据库服务器宕机问题,信通公司在国网典设的三节点ORACLE11g的RAC基础上,又额外异地部署了一套三节点的ADG备库,实现数据库快速切换、灾难性恢复及数据保护,当主库出现故障时,备库可以自动切换为主库,并对外提供服务。同时,将应用程序的JDBC连接串由常规的IP∶PORT改为URL∶PORT方式,通过域名系统(Domain Name System,DNS)进行域名解析,当数据库出现故障时主备库切换后,应用在不需要任何干预的情况下实现自动重连当前可用数据库;对最能体现数据库运行安全及运行质量的DBtime,事务响应时间,数据库等待事件数、活动会话走势、物理读写、CPU负载率、文件系统及表空间使用率等关键指标部署了监控措施,设置指标告警阈值;同时按日将执行时间较长的结构化查询语言(Structured Query Language,SQL)语句提取出来,数据库与应用系统专业人员联合分析,提出优化建议,部分SQL语句也同步报送国网总部开发分析,预先进行系统性能薄弱点的控制,避免因性能问题影响系统安全稳定运行。
2.2 图形架构优化
针对PMS2.0出现的图形编辑卡頓现象,信通公司通过对I6000监控系统主机运行关键数据的分析,发现该问题的主要影响因素为主机资源不足。系统使用24核CPU的虚拟机加载全省数据时,虚拟机CPU使用率指标长期居高不下,系统存在严重超负荷运转现象,导致用户前端操作卡顿现象频现。对此,信通公司协调硬件资源进行优化,及时扩容低配置虚拟机CPU至48核,并新增4台物理机(配置为80C/128G)同步投入运行。
在提升硬件资源、降低SQL响应时长后,PMS2.0系统响应速度有所提升,但图形编辑卡顿现象仍然存在,重要功能模块运行性能指标仍不理想。信通公司从监控指标的运行表象,分析发现在系统架构及程序设计上系统也需要进行进一步的优化处理,经过充分调研、比对、分析并测试后,决定从系统架构及数据分区方面开展优化调整,采用更改栅格拓扑服务数据加载机制,由加载全省数据改为加载地市数据,即“图形分区方案”。将各地市按照电网数据量大小、地市行政区域界限划分为6个区域,每个区域使用两台机器进行集群部署栅格拓扑服务,避免单点故障并负载均衡,从源头解决图形编辑卡顿问题,为开展各项业务应用提供了最大保障。
2.3 接口优化
针对PMS2.0与CMS营销业务应用系统接口稳定性较差,导致配抢工单超时率高达9.35‰的问题,信通公司创新提出营销侧接口独立部署的方案,将营销接口服务剥离出来,单独部署在4台新的服务器上,并作F5负载均衡,大幅提升了接口性能;同时在所有接口都增加了监控“握手”记录的机制,每次接口调用时,都会产生一条日志记录“握手”结果,极大地方便了问题定位与分析。
3 深化应用
3.1 管理方法
3.1.1 管理目标
安徽公司在项目建设中建立里程碑节点清晰的项目工作计划,在总体进度严格要求下依据任务紧迫性、实际开发及实施进度合理调整计划细节,以确保达到“细节可操作、节点可控制、整体可完成”的目标。 3.1.2 管理細则
为确保工程的顺利实施,安徽公司严格按照国家对系统集成项目管理的有关规定和系统实施方案,对项目实施过程中的进度、质量和资源的使用进行全过程的管理。按照“统一规划、统一标准、统一平台、统一建设”的原则,PMS2.0系统实施工作成立项目领导小组、项目管控组、项目工作组、实施组、技术支持组,为项目推进提供组织保障。
同时,安徽公司积极推行“126”管控模式,即围绕“一个计划”—里程碑计划,执行“两个方案”—工作方案、单轨上线方案,推行“六项机制”—分级负责制、周月例会机制、关键指标通报考核机制、进度节点管控机制、问题管控机制、部门间横向协同机制,细致分解工作任务项,落实各项工作责任方及时间节点。同时,要求各单位在严格执行省公司“126”管控模式及机制的基础上,要比照建立自己的管控机制,为项目进度及质量提供了保障。
3.2 用户培训
为保障系统应用效果,省公司组织16家地市公司的输变配专家关键用户进行集中培训,从中选拔出优秀学员作为培训老师,与项目组专家一起组成培训团队,赴地市公司开展驻地培训。同时,根据培训效果,组织人员对教材进行优化,以实用为主,突出差异,重点培训PMS2.0和PMS1.0在业务和流程上的差异,缩短培训时间,使基层人员能够尽快掌握。系统建设期间,累计培训12 854人次,培训范围覆盖管理人员及各个班组成员,培训覆盖率100%,为各单位业务正常开展打下坚实基础。
3.3 工具研发
随着PMS2.0系统上线运行,系统“应用情况指标”查询模块存在考核细度低于现场要求,功能完善进度慢等问题,影响了实际指标管控、分析工作。为此,安徽公司结合PMS2.0系统指标体系与本地基层实际业务应用情况,研发了“PMS智能管控分析平台”,以精益化管理为主线,以推进PMS2.0系统实用化应用为重点,统计查询各业务指标,提升各地市公司专业人员业务应用系统能力,建立统一、高效、集约的运维检修管理信息化平台,满足执行层、管理层和决策层需要,提升电网运检管理精益化水平。
“PMS智能管控分析平台”针对基础设备台账、生产业务数据、系统运行数据的各类指标进行分析、预警,秉承“以指标促应用,以应用促管理”理念,从月度、季度、年度3个维度对指标进行科学组合,强化指标评价对生产信息化专业管理的支撑作用,合理设置发布周期,科学指导各单位系统实用化推进,加大各单位管理改进和自我提升的关注度。
4 结语
PMS2.0是“三集五大”体系建设中的“大检修”体系内容,支撑了运维检修全过程精益化管理和电网资产的全寿命周期管理,安徽公司通过以上技术上、管理上的一系列措施,有效地提升了系统性能,提高了用户体验。目前,该系统已在安徽公司全面应用推广,系统运行稳定,功能应用可靠,有效支撑了安徽公司现有设备资产的运维检修、全寿命周期管理。
Optimization and application of equipment (asset)
operation and maintenance lean management system
Zhang Yongmei, Jia Hui, Tang Yixuan, Yao Zhen, Wang Li
(State Grid AnHui Information &Telecommunication Company, Hefei 230061, China)
Abstract: With the equipment (asset) operation and maintenance lean management system of State Grid Anhui Electric Power Company on the line, achieved a horizontal, vertical multi-system data sharing and business integration, and promoted the level of production management information to a new level. This paper introduces the system tuning in the process of system construction, such as slow data access, graphics caton and poor interface stability, and elaborated the deepen application management methods and the corresponding measures of the PMS2.0 system.
Key words: system structure; performance tuning; “126” management and control; deepen application