论文部分内容阅读
1.云南电网公司德宏供电局,芒市 678400;2.国电南瑞科技股份有限公司,南京 210061
摘 要:电力系统的快速发展对电网调度自动化系统的可用性、可靠性和安全性要求越来越高,使用集群技术进行容错和并行处理已经成为了一种有效可行的解决方法。本文对计算机集群技术做了探讨和研究,并介绍了基于高可用性数据库集群技术在德宏电网调度自动化系统中的应用情况。系统多年的稳定运行验证了该技术的有效性。
关键词:计算机集群;调度自动化;Oracle RAC;IBM HACMP
中图分类号:U665.12 文献标识码:A 文章编号:
1 集群的概念
集群(Cluster)是一种并行或分布式的处理系统,由相互独立的、通过高速网络互连的两个或多个计算机节点(node)组成,像一个单独集成的计算资源一样协同完成特定的任务。集群系统实现了单一系统映像,使系统内所有物理资源和内核资源可见,并被系统内的所有节点访问。操作者不必了解资源的物理位置,也不必知道应用程序在哪个节点上运行,而且可以将应用程序的多个共同工作的部件集中或分散管理,一方面简化了系统管理,另一方面提高了系统性能以及可扩展性和可靠性,同时也降低了成本开支。
2 集群的分类
2.1高性能集群
它是利用集群中的多个节点共同完成同一项任务,提供响应速度和可靠性。具有响应大量计算性能的特点,主要用于处理复杂的计算问题,如气象云图、分子模拟、神经元计算等。
2.2负载均衡集群
它是利用集群中的多个节点按照负载均衡算法去完成任务,各节点的应用程序处理负载和网络流量负载可以尽可能平均合理地分摊处理,这类集群在网站中应用较多。
2.3高可用性集群
它是利用集群中节点的冗余,当某节点发生损坏时,其它节点会自动接管相关应用并继续对用户提供服务,具有更高的可用性、可管理性和更优异的可伸缩性。这类集群一般应用在银行和电信服務领域。
3 集群的结构
高可用性集群体系结构[5]可以分为服务器组、公共网路、心跳通道、SAN(Storage Area Network )存储区域网络、共享存储和集群软件六大部分。
服务器组:高可用性集群系统中每个节点的服务器必须有自己的CPU、内存和磁盘,每个服务器节点的磁盘是用于安装操作系统和集群软件程序。
公共网络:这是集群系统对外提供服务的TCP/IP网路,一般每个服务器节点必须连接在一个或者多个网络交换机上,负责与外界通信;也有可能连接到不同的网络交换机上,保证公共网络的可靠性和失败切换。
心跳通道:在高可用性的集群系统中每个节点必须有心跳接口,用于服务器节点之间互相监视和通信,以取得备援服务器的工作状态。常见的心跳信号可分别透过串行通讯线路(RS232)、网络和共享磁盘阵列互相传递信息。心跳线路最好使用二条不同的通迅路径,达到监视线路冗余的效果。
SAN存储区域网络 :SAN是一个集中式管理的高速存储网络,是独立于服务器网络系统之外的高速光纤存储网络,这种网络采用高速光纤通道作为传输体(现有的网络一般为2Gb-4Gb - 8Gb)将存储系统网络化,以SCSI-3协议作为存储访问协议,实现真正的高速共享存储。支持服务器和存储设备之间任意的点到点的连接,数据交互只在光纤交换网络上完成,确保数据访问的高可用性,实现存储资源的集中管理,减少网络负载。
共享存储:在高可用性的集群系统中由于运行的都是关键业务,故使用的存储服务器都应是企业级的存储服务器,这些存储服务器应具有先进技术来保障其数据安全。
集群软件:主要完成集群节点的管理、监控、故障条件下应用切换等功能,通过安装、配置集群软件可以将若干个节点的CPU(计算)、存储、网络资源整合到了一起,客户端对集群的访问,就像访问一台服务器一样。
4 集群的应用
云南省德宏州截止2011年底共有水电站128座,总装机容量超过350万kW。但是存在电站单机容量小、分布密集、业主管理水平低、自动化程度不高、运行维护质量跟不上等特点,且德宏电能消费方式主要以“西电东送”为主,传输距离远,对电网安全、稳定运行威胁大。电网调度自动化系统是电力调度指挥、运行管理和决策支持的技术保障,要求“7×24”小时持续可靠运行,为确保系统能稳定可靠运行,我们构建了共享存储的高可用性数据库集群,如图1所示。
图1数据库集群硬件结构图
服务器组由两台数据库服务器组成,采用IBM eServer p5 55A 服务器,各自安装了AIX操作系统和HACMP集群软件,配置为硬盘2块做了Raid 1 、64位2.1GHz 2核CPU2块、1G网卡4块、4G光纤卡2块、串口接口卡2块、16G内存以及相关附属设备。
系统提供了对外服务的公共网络,每台数据库服务器配置有2块1G网卡分别连接至集群系统对外提供服务的TCP/IP网路交换机上,外部网络两个交换机进行级联,提高系统可靠性。
采用多路心跳通道形成冗余,提高可靠性。两台数据库服务器间共有两条心跳通路进行互相传递信息,达到监视线路冗余的效果。其中一条是通过私有网络(TCP/IP)另一条是通过串行通讯线路(RS232)进行的。数据库服务器的2块心跳网卡分别采用了IBM 的EtherChannel网卡聚合技术,并启用了负载均衡、智能故障转移等技术,提高了网络性能和可靠性。心跳检测机制(Heart2beat)通过TCP / IP,RS2232等方式在集群数据库服务器节点之间周期性发送和检测握手信号,用来互相监测对方的状态。如果监视器连续没有收到的心跳信号到了一定数目,集群系统即开始启用系统恢复功能,将virtual IP地址切换至另一台数据库服务器上,同时按照Cascading方式切换资源组并启动相应服务。
SAN存储区域网络的组建采用了2台IBM 2005B16光纤交换机,通过光纤分别与2台数据库服务器和磁盘阵列的2个控制器进行相连,形成两个相对独立的数据存取通道,既可避免单点故障,又可提高数据库的访问速度。通过SAN的构建,使服务器与存储阵列的通信只在光纤交换网络上完成,可以提供更可靠、更易扩展和更大带宽的数据访问,确保数据访问的高可用性,实现存储资源的集中管理和减少网络负载,并将占用IO最大的存储系统从计算机平台上解放出来,为其他重要工作提供宝贵的主机资源,从而提高系统的整体性能。
本系统中共享存储采用了1套IBM DS4700双控制器的2TB磁盘阵列,用于存放数据库系统表空间、用户表空间、仲裁卷、控制文件、重做日志组,磁盘阵列中的磁盘采用Raid5 (Redundant Array of Inexpensive Disk 5)+1hotspare的存储组成方式,既提升了数据存储速度也提高数据存储的安全性。
两台数据库服务器上分别安装了IBM的HAMCP高可用集群软件和Oracle 10g数据库的应用实例,并搭建了Oracle RAC实时应用数据库集群。Oracle RAC集群环境需要用到第三方的集群管理软件和存储管理软件,故采用了IBM高可用性集群多处理软件HAMCP是从操作系统层面将两台数据库服务器做成一个逻辑整体,负责对所有资源进行调配。Oracle的数据文件、控制文件、日志文件存储在共享磁盘阵列上,两台数据库服务器上只创建共享数据库的实例。整个集群系统对外有1个虚拟的IP 地址,客户端连接虚拟地址,达到单一的系统映像。这样,当某个节点发生硬件或软件故障时,系统可以把任务自动地切换到另一个节点,可以继续提供数据库服务对用户没有影响。系统还提供了很高的有效性和可扩展性,比如在业务扩展和数据量增长,需提升系统处理能力时,只需向集群中增加更多的节点,增加所支持用户的数量即可保持系统性能。
5 结语
目前,云南电网公司德宏供电局电网调度自动化自动系统自2009年5月投运以来,高可用性数据库集群运行稳定、效果良好,为各个应用系统提供了可靠运行的数据基础平台。随着电网结构的日益庞大和复杂,以及应用的持续深化,数据库的数据量和负荷也会逐渐增加,届时可以考虑在现有的集群基础上增加新节点以满足应用的需求。
参考文献
[1] 李春,沈吉祥.HACMP for AIX基本技术原理.软件导刊,2006,9:43-45.
[2] 查志勇,朱小军,彭祥礼.Oracle数据库高可用集群实现方案.电力信息化,2011,9(11):25-28.
摘 要:电力系统的快速发展对电网调度自动化系统的可用性、可靠性和安全性要求越来越高,使用集群技术进行容错和并行处理已经成为了一种有效可行的解决方法。本文对计算机集群技术做了探讨和研究,并介绍了基于高可用性数据库集群技术在德宏电网调度自动化系统中的应用情况。系统多年的稳定运行验证了该技术的有效性。
关键词:计算机集群;调度自动化;Oracle RAC;IBM HACMP
中图分类号:U665.12 文献标识码:A 文章编号:
1 集群的概念
集群(Cluster)是一种并行或分布式的处理系统,由相互独立的、通过高速网络互连的两个或多个计算机节点(node)组成,像一个单独集成的计算资源一样协同完成特定的任务。集群系统实现了单一系统映像,使系统内所有物理资源和内核资源可见,并被系统内的所有节点访问。操作者不必了解资源的物理位置,也不必知道应用程序在哪个节点上运行,而且可以将应用程序的多个共同工作的部件集中或分散管理,一方面简化了系统管理,另一方面提高了系统性能以及可扩展性和可靠性,同时也降低了成本开支。
2 集群的分类
2.1高性能集群
它是利用集群中的多个节点共同完成同一项任务,提供响应速度和可靠性。具有响应大量计算性能的特点,主要用于处理复杂的计算问题,如气象云图、分子模拟、神经元计算等。
2.2负载均衡集群
它是利用集群中的多个节点按照负载均衡算法去完成任务,各节点的应用程序处理负载和网络流量负载可以尽可能平均合理地分摊处理,这类集群在网站中应用较多。
2.3高可用性集群
它是利用集群中节点的冗余,当某节点发生损坏时,其它节点会自动接管相关应用并继续对用户提供服务,具有更高的可用性、可管理性和更优异的可伸缩性。这类集群一般应用在银行和电信服務领域。
3 集群的结构
高可用性集群体系结构[5]可以分为服务器组、公共网路、心跳通道、SAN(Storage Area Network )存储区域网络、共享存储和集群软件六大部分。
服务器组:高可用性集群系统中每个节点的服务器必须有自己的CPU、内存和磁盘,每个服务器节点的磁盘是用于安装操作系统和集群软件程序。
公共网络:这是集群系统对外提供服务的TCP/IP网路,一般每个服务器节点必须连接在一个或者多个网络交换机上,负责与外界通信;也有可能连接到不同的网络交换机上,保证公共网络的可靠性和失败切换。
心跳通道:在高可用性的集群系统中每个节点必须有心跳接口,用于服务器节点之间互相监视和通信,以取得备援服务器的工作状态。常见的心跳信号可分别透过串行通讯线路(RS232)、网络和共享磁盘阵列互相传递信息。心跳线路最好使用二条不同的通迅路径,达到监视线路冗余的效果。
SAN存储区域网络 :SAN是一个集中式管理的高速存储网络,是独立于服务器网络系统之外的高速光纤存储网络,这种网络采用高速光纤通道作为传输体(现有的网络一般为2Gb-4Gb - 8Gb)将存储系统网络化,以SCSI-3协议作为存储访问协议,实现真正的高速共享存储。支持服务器和存储设备之间任意的点到点的连接,数据交互只在光纤交换网络上完成,确保数据访问的高可用性,实现存储资源的集中管理,减少网络负载。
共享存储:在高可用性的集群系统中由于运行的都是关键业务,故使用的存储服务器都应是企业级的存储服务器,这些存储服务器应具有先进技术来保障其数据安全。
集群软件:主要完成集群节点的管理、监控、故障条件下应用切换等功能,通过安装、配置集群软件可以将若干个节点的CPU(计算)、存储、网络资源整合到了一起,客户端对集群的访问,就像访问一台服务器一样。
4 集群的应用
云南省德宏州截止2011年底共有水电站128座,总装机容量超过350万kW。但是存在电站单机容量小、分布密集、业主管理水平低、自动化程度不高、运行维护质量跟不上等特点,且德宏电能消费方式主要以“西电东送”为主,传输距离远,对电网安全、稳定运行威胁大。电网调度自动化系统是电力调度指挥、运行管理和决策支持的技术保障,要求“7×24”小时持续可靠运行,为确保系统能稳定可靠运行,我们构建了共享存储的高可用性数据库集群,如图1所示。
图1数据库集群硬件结构图
服务器组由两台数据库服务器组成,采用IBM eServer p5 55A 服务器,各自安装了AIX操作系统和HACMP集群软件,配置为硬盘2块做了Raid 1 、64位2.1GHz 2核CPU2块、1G网卡4块、4G光纤卡2块、串口接口卡2块、16G内存以及相关附属设备。
系统提供了对外服务的公共网络,每台数据库服务器配置有2块1G网卡分别连接至集群系统对外提供服务的TCP/IP网路交换机上,外部网络两个交换机进行级联,提高系统可靠性。
采用多路心跳通道形成冗余,提高可靠性。两台数据库服务器间共有两条心跳通路进行互相传递信息,达到监视线路冗余的效果。其中一条是通过私有网络(TCP/IP)另一条是通过串行通讯线路(RS232)进行的。数据库服务器的2块心跳网卡分别采用了IBM 的EtherChannel网卡聚合技术,并启用了负载均衡、智能故障转移等技术,提高了网络性能和可靠性。心跳检测机制(Heart2beat)通过TCP / IP,RS2232等方式在集群数据库服务器节点之间周期性发送和检测握手信号,用来互相监测对方的状态。如果监视器连续没有收到的心跳信号到了一定数目,集群系统即开始启用系统恢复功能,将virtual IP地址切换至另一台数据库服务器上,同时按照Cascading方式切换资源组并启动相应服务。
SAN存储区域网络的组建采用了2台IBM 2005B16光纤交换机,通过光纤分别与2台数据库服务器和磁盘阵列的2个控制器进行相连,形成两个相对独立的数据存取通道,既可避免单点故障,又可提高数据库的访问速度。通过SAN的构建,使服务器与存储阵列的通信只在光纤交换网络上完成,可以提供更可靠、更易扩展和更大带宽的数据访问,确保数据访问的高可用性,实现存储资源的集中管理和减少网络负载,并将占用IO最大的存储系统从计算机平台上解放出来,为其他重要工作提供宝贵的主机资源,从而提高系统的整体性能。
本系统中共享存储采用了1套IBM DS4700双控制器的2TB磁盘阵列,用于存放数据库系统表空间、用户表空间、仲裁卷、控制文件、重做日志组,磁盘阵列中的磁盘采用Raid5 (Redundant Array of Inexpensive Disk 5)+1hotspare的存储组成方式,既提升了数据存储速度也提高数据存储的安全性。
两台数据库服务器上分别安装了IBM的HAMCP高可用集群软件和Oracle 10g数据库的应用实例,并搭建了Oracle RAC实时应用数据库集群。Oracle RAC集群环境需要用到第三方的集群管理软件和存储管理软件,故采用了IBM高可用性集群多处理软件HAMCP是从操作系统层面将两台数据库服务器做成一个逻辑整体,负责对所有资源进行调配。Oracle的数据文件、控制文件、日志文件存储在共享磁盘阵列上,两台数据库服务器上只创建共享数据库的实例。整个集群系统对外有1个虚拟的IP 地址,客户端连接虚拟地址,达到单一的系统映像。这样,当某个节点发生硬件或软件故障时,系统可以把任务自动地切换到另一个节点,可以继续提供数据库服务对用户没有影响。系统还提供了很高的有效性和可扩展性,比如在业务扩展和数据量增长,需提升系统处理能力时,只需向集群中增加更多的节点,增加所支持用户的数量即可保持系统性能。
5 结语
目前,云南电网公司德宏供电局电网调度自动化自动系统自2009年5月投运以来,高可用性数据库集群运行稳定、效果良好,为各个应用系统提供了可靠运行的数据基础平台。随着电网结构的日益庞大和复杂,以及应用的持续深化,数据库的数据量和负荷也会逐渐增加,届时可以考虑在现有的集群基础上增加新节点以满足应用的需求。
参考文献
[1] 李春,沈吉祥.HACMP for AIX基本技术原理.软件导刊,2006,9:43-45.
[2] 查志勇,朱小军,彭祥礼.Oracle数据库高可用集群实现方案.电力信息化,2011,9(11):25-28.