论文部分内容阅读
[摘 要]目前大型企业进入了互联网时代,大数据广泛使用,随着业务应用部署规模的扩大,业务数量的不断增多,本地磁盘早已不能满足系统的使用,大型存储已进军各个角落中,在使用大型存储的过程中,多路径软件的配置显得尤为重要,本文主要论述在Linux系统下多路径软件的配置。
中图分类号:V242.3 文献标识码:A 文章编号:1009-914X(2016)09-0143-01
1、引言
多路径软件的主要作用是配合外部存储进行高可用故障保护的一个重要组成部分。其主要功能是将系统上多个同一ID号的外部设备合并为一,并提供IO路径故障时系统级别的故障切换,保证系统上的应用业务高可用的作用。多路径软件可分为外部存储厂商自行开发及系统层面自带两大种类。外部存储厂商自行开发的多路径软件优点是可以及时有效的配合本厂存储的故障切换,缺点是不能及时应对操作系统的更新换代,与操作系统之间的兼容性不够好。操作系统自带的多路径软件优点是可以完美的兼容系统,可以随系统的更新升级而同步更新升级,缺点是参数设置比较保守,不能很好的配合存储层面的控制器切换机制。
2、现象描述
在对系统的存储设备进行检修过程中,官方提供了技术支持,并且可以进行在线检修,因存储有2个SP管理单元进行冗余,保证业务不中断。实际在SP2接管SP1后,SP2升级时,出现个别双机RAC的数据库宕机,经过排查发现,SP2的双链路切换时间过于长,而双机RAC的数据库中控制盘有着非常高频率的读写,造成数据库宕机的现象。而造成SP2双链路切换过程过长的根本原因,是在服务器在配置多路径时,没有正确的配置。
3、linux系统下自带多路径软件参数设置介绍
在linux系统下,存储使用的是系统自带的多路径软件,但linux系统自带的多路径软件multipath参数设备过于保守,造成系统层面IO路径的切换时长过长,且该multipath软件属于惰性启动。因此修改multipath软件的参数设置可以有效的保证IO路径及时切换,确保系统上应用业务的连续可用性。
下文分别是7.X版本的linux系统下multipath软件参数设置及参数说明。
blacklist {wwid 35000c50063d70b62
}defaults {
user_friendly_names yes
polling_interval 10
checker_timeout 120
queue_without_daemon no
flush_on_last_del yes
}
devices {device {
vendor “IBM "
product "LU"
path_grouping_policy group_by_prio
no_path_retry queue
prio alua
path_checker tur
path_selector "round-robin 0"
hardware_handler "0"
failback 15
}
}multipaths{
multipath{
wwid 3600b3427c971ce2d8babd2a8fd0000d6
alias mpatha
}
多路徑参数设置说明:
user_friendly_names:显示存储设备厂商
polling_interval:路径监测间隔时间,全局参数,对每条路径都有效
checker_timeout:超时检查
vendor:LUN的制造商
product:产品的ID
path_grouping_policy:选择路径的方式
path_selector:路径的工作方式
path_checker:检查路径的方式
no_path_retry:路径丢失时,一直等待直到路径恢复
prio:获取路径的优先级
getuid_callout:获取LUN的scsi_id
hardware_handler:1表示emc的LUN
failback:路径切换的时间(秒)
queue_without_daemon及flush_on_last_del:解决关于Linux服务器对存储端的Lun创建PV后,设备不能成功重启/关机,或Linux系统下强制取消FC关联Lun后,服务器不能成功重启/关机的问题。
根据官网说明Redhat7中multipath.conf文件中已经取消掉参数getuid_callout"/lib/udev/scsi_id --whitelisted --device=/dev/%n"的设置
其中polling_interval和failback两项参数可根据系统上层业务应用的不同进行微调,但是不可将其过于调低,以免参数设置过低,而存储上控制器未完成切换从而造成多路径不正常。在ORACLE数据库环境下,由于ORACLE10G以前的版本其ASM磁盘默认容忍超时时间为120S,但在ORACLE11.0.2版本以后其ASM磁盘默认容忍超时时间为15S,建议将其进行修改,multipath参数当中polling_interval和failback两项参数也可向下微调。作者简介:常春雷,出生于1988.11,本科毕业于北京交通大学,测控系,研究生毕业于北京交通大学,软件工程学院。目前从事信息运维工作。
杨大伟,出生于1986.10.9,本科毕业于华北电力大学,网络工程专业,研究生毕业于华北电力大学,计算机技术专业。目前从事信息运维工作。
中图分类号:V242.3 文献标识码:A 文章编号:1009-914X(2016)09-0143-01
1、引言
多路径软件的主要作用是配合外部存储进行高可用故障保护的一个重要组成部分。其主要功能是将系统上多个同一ID号的外部设备合并为一,并提供IO路径故障时系统级别的故障切换,保证系统上的应用业务高可用的作用。多路径软件可分为外部存储厂商自行开发及系统层面自带两大种类。外部存储厂商自行开发的多路径软件优点是可以及时有效的配合本厂存储的故障切换,缺点是不能及时应对操作系统的更新换代,与操作系统之间的兼容性不够好。操作系统自带的多路径软件优点是可以完美的兼容系统,可以随系统的更新升级而同步更新升级,缺点是参数设置比较保守,不能很好的配合存储层面的控制器切换机制。
2、现象描述
在对系统的存储设备进行检修过程中,官方提供了技术支持,并且可以进行在线检修,因存储有2个SP管理单元进行冗余,保证业务不中断。实际在SP2接管SP1后,SP2升级时,出现个别双机RAC的数据库宕机,经过排查发现,SP2的双链路切换时间过于长,而双机RAC的数据库中控制盘有着非常高频率的读写,造成数据库宕机的现象。而造成SP2双链路切换过程过长的根本原因,是在服务器在配置多路径时,没有正确的配置。
3、linux系统下自带多路径软件参数设置介绍
在linux系统下,存储使用的是系统自带的多路径软件,但linux系统自带的多路径软件multipath参数设备过于保守,造成系统层面IO路径的切换时长过长,且该multipath软件属于惰性启动。因此修改multipath软件的参数设置可以有效的保证IO路径及时切换,确保系统上应用业务的连续可用性。
下文分别是7.X版本的linux系统下multipath软件参数设置及参数说明。
blacklist {wwid 35000c50063d70b62
}defaults {
user_friendly_names yes
polling_interval 10
checker_timeout 120
queue_without_daemon no
flush_on_last_del yes
}
devices {device {
vendor “IBM "
product "LU"
path_grouping_policy group_by_prio
no_path_retry queue
prio alua
path_checker tur
path_selector "round-robin 0"
hardware_handler "0"
failback 15
}
}multipaths{
multipath{
wwid 3600b3427c971ce2d8babd2a8fd0000d6
alias mpatha
}
多路徑参数设置说明:
user_friendly_names:显示存储设备厂商
polling_interval:路径监测间隔时间,全局参数,对每条路径都有效
checker_timeout:超时检查
vendor:LUN的制造商
product:产品的ID
path_grouping_policy:选择路径的方式
path_selector:路径的工作方式
path_checker:检查路径的方式
no_path_retry:路径丢失时,一直等待直到路径恢复
prio:获取路径的优先级
getuid_callout:获取LUN的scsi_id
hardware_handler:1表示emc的LUN
failback:路径切换的时间(秒)
queue_without_daemon及flush_on_last_del:解决关于Linux服务器对存储端的Lun创建PV后,设备不能成功重启/关机,或Linux系统下强制取消FC关联Lun后,服务器不能成功重启/关机的问题。
根据官网说明Redhat7中multipath.conf文件中已经取消掉参数getuid_callout"/lib/udev/scsi_id --whitelisted --device=/dev/%n"的设置
其中polling_interval和failback两项参数可根据系统上层业务应用的不同进行微调,但是不可将其过于调低,以免参数设置过低,而存储上控制器未完成切换从而造成多路径不正常。在ORACLE数据库环境下,由于ORACLE10G以前的版本其ASM磁盘默认容忍超时时间为120S,但在ORACLE11.0.2版本以后其ASM磁盘默认容忍超时时间为15S,建议将其进行修改,multipath参数当中polling_interval和failback两项参数也可向下微调。作者简介:常春雷,出生于1988.11,本科毕业于北京交通大学,测控系,研究生毕业于北京交通大学,软件工程学院。目前从事信息运维工作。
杨大伟,出生于1986.10.9,本科毕业于华北电力大学,网络工程专业,研究生毕业于华北电力大学,计算机技术专业。目前从事信息运维工作。