论文部分内容阅读
[摘 要]电力信息化数据库的健康运行,是电力业务系统的依托和保障。集中管理所有数據库主机与数据库实例资源,使运维更简单、高效。可视化关联所需要的各类信息,轻松掌握数据库实时运行状态,充分满足精细化运维监管需求。在故障发生时第一时间通知责任人,自动恢常见故障,无需人工干预,有效提高资源可用性。及时准确查看故障发生时日志信息及相关信息,有助于故障分析判断,有效缩短分析处理时间,自动关联知识库获取解决方案,提升运维效率。将运维模式转变为主动预防,从此摆脱被动救火的尴尬运维方式。
[关键词]数据库、自动化、运维监控
中图分类号:TP277 文献标识码:A 文章编号:1009-914X(2017)47-0329-02
1.前言
随着电力企业信息化的不断深入,作为电力核心信息系统的关键组成部分,数据库的重要性毋庸置疑,数据库服务中断对业务的影响也越来越大。在传统的数据库运维模式下,由于缺少先进的自动化工具,往往需要依赖数据库管理员通过手工方式定期检查数据库运行状态,存在实时性差、效率低下以及容易发生人为操作错误等显著缺点。因此,通过建设一套功能先进、安全可靠的运维系统实现数据库日常运维的自动化与可视化,能够大大提升运维工作效率,为数据库系统7*24小时不间断运行提供有力保障,进而确保电力信息系统持续稳定运行。
2.数据库自动化运维方式
数据库自动化运维监控系统采用多层架构及模块化的设计模式,系统功能全面,模块功能独立,可根据不同客户需求自由组合,同时数据库自动化运维监控系统具备良好的扩展性,通过第三方数据接口和数据总线以及门户Portal,与第三方产品可进行无缝集成(图1)。
数据库自动化运维监控系统采用J2EE架构,全图形化B/S模式,可移植性强,可运行于不同操作系统(Windows、Red Hat Linux等),真正实现了跨平台部署。系统支持多数据库(MySQL、Oracle等)、多操作系统,为第三方系统提供多种集成接口。
数据库自动化运维监控系统架构分为三层:
数据采集层:由一个或多个DCS(数据采集服务)构成,内置20多种标准采集协议,通过SNMP/SNMP Trap、Telnet、SSH、WMI、JMX、JDBC、Syslog、开放API等远程监控方式,采集IT基础设施和应用的各种指标数据,单个DCS最高支持500个管理对象。
数据处理层:由一个或多个DHS(数据处理服务)构成,用于接收各DCS采集到的数据,并对各种采集数据通过分析和挖掘处理,为前端的展现提供性能数据依据;超过指标阈值产生故障告警给数据展现层。
门户层(Portal)运用了先进的Web技术,提供分角色、可视化的数据展现和管理功能。系统的Portal服务、DHS(信息处理)服务、DCS(信息采集)服务可根据IT环境的实际情况部署在相同或不同的主机上,同时可能根据管理对象规模,采用单个或多个DCS进行管理容量规划,这样就实现集中式或分布式两种不同的部署方式,对企业内/外网、总部/分支等不同结构的IT资源实现了灵活管理。分布式部署时,关键节点设置缓存保护,能适应恶劣的网络环境。
3.数据库自动化运维项目
3.1 统一门户
统一门户Portal作为系统的单一入口,具备统一认证,单点登录,自定义首页工作界面等功能。整合资源管理,巡检管理,报表管理,系统管理等功能,快速呈现工作内容,提高工作效率;
系统针对每个用户账号提供了个性化的自定义首页视图,可根据用户实际运维情况将其关注的或常用的运维信息设置到首页Portal组件中,组件可直观展示系统中的关键统计数据、关键设备及其关键指标,包括指标TOPN排名、故障告警统计、告警一览列表、资源类型统计、关注指定的主机/数据库及其相应指标等。
3.2 极简模式
为了简化运维工作的繁琐度,使用户根据关注工作相关事务,系统独创了极简运维模式,将复杂的操作与配置等功能隐藏在极简的设计中,系统根据管理者和运维工程师的日常工作内容默认提供两套完全不同的视图模式和操作体验,让管理者和运维工程师可以从最适合自己的工作界面出发,保障工作顺利进行。
3.3 资源管理
系统支持对网络设备、服务器操作系统、数据库、中间件、存储等IT基础设施及虚拟化平台的监控管理,并且监控管理具备很强的可扩展能力,方便进行功能扩展和规模扩展;
3.4 主机管理
系统支持对HP-Unix、Solaris、Linux、AIX、Windows等主流操作系统的监控。Windows操作系统可以通过SNMP和WMI方式获取主机设备的运行状态和性能数据,非Windows操作系统可以通过TELNET和SSH方式来获取数据。
系统能够管理的主机性能数据包括CPU利用率、DISK磁盘容量、系统内存使用情况、磁盘利用率、文件系统、关键进程、软硬件资源信息等,针对服务器相关的性能指标能够按照实际情况设定不同级别的性能阈值,对于超过性能阈值的性能指标系统能够进行故障告警或预警并通知相应的网络管理人员。系统使用智能可用性判断方法,准确探测禁ping等特殊环境下的设备可用性。
系统采用图表等方式实时显示主机的cpu利用率、cpu使用情况、内存利用率、磁盘信息、进程等相关信息。实时监控当前主机性能,能够根据当前系统的运行情况,提供深入的性能分析。系统的进程分析能够实时监视系统进程的运行状况,显示进程所占用系统资源的情况。
3.5 数据库管理
系统能够对运行在主机设备上的各种数据库的运行状态和性能数据进行统一有效的管理。系统支持SQL Server、Oracle、Sybase、Informix、DB2、MySQL、PostgreSQL、Cache、达梦等主流的数据库的监控管理。 3.6 告警管理
统一的告警管理平台,通过性能指标采集轮询方式,获得各种告警事件,当出现故障后能通过预置的报警方式及时通过短信、邮件、告警客户端等方式通知指定接口人,并能生成告警分析统计报告,提供主动式的故障解决方式。
3.7 巡检管理
巡检管理提供了自动巡检功能,支持对巡检计划任务管理(包括任务增删改、立即执行、复制、启用/禁用)、巡检内容设置(包括章节设置、巡检对象设置、巡检指标设置)、巡检方式设置(包括人工、自动)等功能。
3.8 报表管理
报表统计分析是运维质量的度量依据,系统报表生成灵活,呈现多样,能满足用户不断变化的统计需求,系统可通过报表分析能够有序地展现数据库运维的所有管理指标,生成各种分析报告和图表,全面呈现数据库系统的告警统计、系统运行状况等,为故障诊断、领导决策提供科学的、可量化的依据。
4.数据库自动化运维特性
可视化资源监控,统一的视图查看所有IT 资源的性能情况、故障情况、物理连接关系、资源关联关系; 打破资源不同分类单独管理的限制,不同分类的相关资源可关联分析,如服务器和服务器上的数据库;
丰富的指标体系针对不同角色的运维需求,默认提供上千监控指標;对于Telnet/SSH类的监控,可以通过配置shell脚本的方式采集服务器的性能指标与信息指标。对于Oracle数据库的监控,可以通过自定义SQL语句方式采集数据库性能指标与信息指标。
灵活的资源模型,自定义指标可动态扩展,无需定制开发即可实现。系统提供了开放式的KPI接口和资源模型以供用户便捷的添加自己需要的特殊KPI,监控指标可通过页面配置或脚本修改进行快速扩展,降低了实现自定义监控指标的技术难度,提高了针对用户的特殊监测指标的响应速度。
智能化故障管理,提供了智能化的故障处理流程,立足于提高运维工程师的处理效率。灵活的告警策略能适应各种各样的IT环境变化,帮助运维人员从海量告警信息中释放出来,聚焦在需要重点关注和处理的故障上;
自动化运维操作,系统提供了自动化巡检功能,通过自定义巡检模板,可指定要巡检的资源、指标等,可任意指定每天的巡检时间和次数,系统自动的进行巡检任务并按照模板生成巡检报告,发送到指定的邮箱,无需人工干预巡检及填写报告;
5.结语
数据库自动化运维监控系统,将日常运维巡检工作标准化和工具化,避免人为出错导致利益损失。减少工程师标准化、重复化的日常运维工作,化人工操作为自动化过程。最大程度提高巡检工作效率,使工程师可集中精力关注和处理巡检异常的IT资源上。
参考文献
[1] 陈禹编.信息系统分析与设计[M].北京高等教育出版社,2006:12-23.
[2] 赵勃.IT服务管理(ITSM)中技术的探究[J].科技创新导报.2009,3(25):35-46.
[3] 秦士兵.电力企业信息系统中Oracle数据库运维管理[J].中国新技术新产品,2012(21):41-42.
[4] 梁勇,张攀翔,陈秋华.企业级数据库云平台的建设与运维方案[J].电信科学,2012,28(2):146-155.
作者简介
冉冉,1980年10月生,硕士,副高级工程师,从事电力行业数据库、数据中心、大数据建设与运维工作。
[关键词]数据库、自动化、运维监控
中图分类号:TP277 文献标识码:A 文章编号:1009-914X(2017)47-0329-02
1.前言
随着电力企业信息化的不断深入,作为电力核心信息系统的关键组成部分,数据库的重要性毋庸置疑,数据库服务中断对业务的影响也越来越大。在传统的数据库运维模式下,由于缺少先进的自动化工具,往往需要依赖数据库管理员通过手工方式定期检查数据库运行状态,存在实时性差、效率低下以及容易发生人为操作错误等显著缺点。因此,通过建设一套功能先进、安全可靠的运维系统实现数据库日常运维的自动化与可视化,能够大大提升运维工作效率,为数据库系统7*24小时不间断运行提供有力保障,进而确保电力信息系统持续稳定运行。
2.数据库自动化运维方式
数据库自动化运维监控系统采用多层架构及模块化的设计模式,系统功能全面,模块功能独立,可根据不同客户需求自由组合,同时数据库自动化运维监控系统具备良好的扩展性,通过第三方数据接口和数据总线以及门户Portal,与第三方产品可进行无缝集成(图1)。
数据库自动化运维监控系统采用J2EE架构,全图形化B/S模式,可移植性强,可运行于不同操作系统(Windows、Red Hat Linux等),真正实现了跨平台部署。系统支持多数据库(MySQL、Oracle等)、多操作系统,为第三方系统提供多种集成接口。
数据库自动化运维监控系统架构分为三层:
数据采集层:由一个或多个DCS(数据采集服务)构成,内置20多种标准采集协议,通过SNMP/SNMP Trap、Telnet、SSH、WMI、JMX、JDBC、Syslog、开放API等远程监控方式,采集IT基础设施和应用的各种指标数据,单个DCS最高支持500个管理对象。
数据处理层:由一个或多个DHS(数据处理服务)构成,用于接收各DCS采集到的数据,并对各种采集数据通过分析和挖掘处理,为前端的展现提供性能数据依据;超过指标阈值产生故障告警给数据展现层。
门户层(Portal)运用了先进的Web技术,提供分角色、可视化的数据展现和管理功能。系统的Portal服务、DHS(信息处理)服务、DCS(信息采集)服务可根据IT环境的实际情况部署在相同或不同的主机上,同时可能根据管理对象规模,采用单个或多个DCS进行管理容量规划,这样就实现集中式或分布式两种不同的部署方式,对企业内/外网、总部/分支等不同结构的IT资源实现了灵活管理。分布式部署时,关键节点设置缓存保护,能适应恶劣的网络环境。
3.数据库自动化运维项目
3.1 统一门户
统一门户Portal作为系统的单一入口,具备统一认证,单点登录,自定义首页工作界面等功能。整合资源管理,巡检管理,报表管理,系统管理等功能,快速呈现工作内容,提高工作效率;
系统针对每个用户账号提供了个性化的自定义首页视图,可根据用户实际运维情况将其关注的或常用的运维信息设置到首页Portal组件中,组件可直观展示系统中的关键统计数据、关键设备及其关键指标,包括指标TOPN排名、故障告警统计、告警一览列表、资源类型统计、关注指定的主机/数据库及其相应指标等。
3.2 极简模式
为了简化运维工作的繁琐度,使用户根据关注工作相关事务,系统独创了极简运维模式,将复杂的操作与配置等功能隐藏在极简的设计中,系统根据管理者和运维工程师的日常工作内容默认提供两套完全不同的视图模式和操作体验,让管理者和运维工程师可以从最适合自己的工作界面出发,保障工作顺利进行。
3.3 资源管理
系统支持对网络设备、服务器操作系统、数据库、中间件、存储等IT基础设施及虚拟化平台的监控管理,并且监控管理具备很强的可扩展能力,方便进行功能扩展和规模扩展;
3.4 主机管理
系统支持对HP-Unix、Solaris、Linux、AIX、Windows等主流操作系统的监控。Windows操作系统可以通过SNMP和WMI方式获取主机设备的运行状态和性能数据,非Windows操作系统可以通过TELNET和SSH方式来获取数据。
系统能够管理的主机性能数据包括CPU利用率、DISK磁盘容量、系统内存使用情况、磁盘利用率、文件系统、关键进程、软硬件资源信息等,针对服务器相关的性能指标能够按照实际情况设定不同级别的性能阈值,对于超过性能阈值的性能指标系统能够进行故障告警或预警并通知相应的网络管理人员。系统使用智能可用性判断方法,准确探测禁ping等特殊环境下的设备可用性。
系统采用图表等方式实时显示主机的cpu利用率、cpu使用情况、内存利用率、磁盘信息、进程等相关信息。实时监控当前主机性能,能够根据当前系统的运行情况,提供深入的性能分析。系统的进程分析能够实时监视系统进程的运行状况,显示进程所占用系统资源的情况。
3.5 数据库管理
系统能够对运行在主机设备上的各种数据库的运行状态和性能数据进行统一有效的管理。系统支持SQL Server、Oracle、Sybase、Informix、DB2、MySQL、PostgreSQL、Cache、达梦等主流的数据库的监控管理。 3.6 告警管理
统一的告警管理平台,通过性能指标采集轮询方式,获得各种告警事件,当出现故障后能通过预置的报警方式及时通过短信、邮件、告警客户端等方式通知指定接口人,并能生成告警分析统计报告,提供主动式的故障解决方式。
3.7 巡检管理
巡检管理提供了自动巡检功能,支持对巡检计划任务管理(包括任务增删改、立即执行、复制、启用/禁用)、巡检内容设置(包括章节设置、巡检对象设置、巡检指标设置)、巡检方式设置(包括人工、自动)等功能。
3.8 报表管理
报表统计分析是运维质量的度量依据,系统报表生成灵活,呈现多样,能满足用户不断变化的统计需求,系统可通过报表分析能够有序地展现数据库运维的所有管理指标,生成各种分析报告和图表,全面呈现数据库系统的告警统计、系统运行状况等,为故障诊断、领导决策提供科学的、可量化的依据。
4.数据库自动化运维特性
可视化资源监控,统一的视图查看所有IT 资源的性能情况、故障情况、物理连接关系、资源关联关系; 打破资源不同分类单独管理的限制,不同分类的相关资源可关联分析,如服务器和服务器上的数据库;
丰富的指标体系针对不同角色的运维需求,默认提供上千监控指標;对于Telnet/SSH类的监控,可以通过配置shell脚本的方式采集服务器的性能指标与信息指标。对于Oracle数据库的监控,可以通过自定义SQL语句方式采集数据库性能指标与信息指标。
灵活的资源模型,自定义指标可动态扩展,无需定制开发即可实现。系统提供了开放式的KPI接口和资源模型以供用户便捷的添加自己需要的特殊KPI,监控指标可通过页面配置或脚本修改进行快速扩展,降低了实现自定义监控指标的技术难度,提高了针对用户的特殊监测指标的响应速度。
智能化故障管理,提供了智能化的故障处理流程,立足于提高运维工程师的处理效率。灵活的告警策略能适应各种各样的IT环境变化,帮助运维人员从海量告警信息中释放出来,聚焦在需要重点关注和处理的故障上;
自动化运维操作,系统提供了自动化巡检功能,通过自定义巡检模板,可指定要巡检的资源、指标等,可任意指定每天的巡检时间和次数,系统自动的进行巡检任务并按照模板生成巡检报告,发送到指定的邮箱,无需人工干预巡检及填写报告;
5.结语
数据库自动化运维监控系统,将日常运维巡检工作标准化和工具化,避免人为出错导致利益损失。减少工程师标准化、重复化的日常运维工作,化人工操作为自动化过程。最大程度提高巡检工作效率,使工程师可集中精力关注和处理巡检异常的IT资源上。
参考文献
[1] 陈禹编.信息系统分析与设计[M].北京高等教育出版社,2006:12-23.
[2] 赵勃.IT服务管理(ITSM)中技术的探究[J].科技创新导报.2009,3(25):35-46.
[3] 秦士兵.电力企业信息系统中Oracle数据库运维管理[J].中国新技术新产品,2012(21):41-42.
[4] 梁勇,张攀翔,陈秋华.企业级数据库云平台的建设与运维方案[J].电信科学,2012,28(2):146-155.
作者简介
冉冉,1980年10月生,硕士,副高级工程师,从事电力行业数据库、数据中心、大数据建设与运维工作。