论文部分内容阅读
虚拟化显然是当前服务器,企业存储等领域最热门的话题,特别是随着IA服务器系统性能的日益强健,各种企业、数据中心都争相开始在这方面进行尝试。这里,来自NetAppKilo-Client实验室的一些实践经验,或许对大家有所帮助。
Kilo-Client测试实验室的设计初衷就是为了能够针对大型网格或服务器群产品进行测试,并快速重现企业用户在这种环境中可能遇到的问题。它最初包括了通过iSCSI启动的1120个服务器刀片。后来该实验室又添加了98个带iSCSIHBA的刀片和280个能够通过光纤通道启动的刀片,最终形成了1500个节点的服务器群。
这里有几个Kilo-Client测试实验室设计当中,客户和合作伙伴最感兴趣的热点问题,非常值得我们关注。
1 快速配置服务器
快速配置意味着必须能够通过任意操作系统/应用程序环境快速启动服务器。我们这里使用NetApp FlexClone技术快速创建系统映像,而无需对这些映像进行完全的物理拷贝。
我们为服务器群中所需的每个操作系统和应用程序堆栈创建一套“黄金”启动映像(如iSCSI、光纤通道SANLUN)。使用SnapMirror和FlexClone,并快速复制出数百个克隆(每台配置用于测试的服务器一个FlexClone克隆)。然后将特定于主机的“个性化”添加到每个受配置服务器的核心映像,从而使我们在数分钟内即可配置并启动全部或部分刀片。
2 虚拟环境
接下来,我们还需要进一步快速配置完整的虚拟环境,其中包括计算网格、互连Fabric及存储网格。
我们可以自动配置几乎可运行所有操作系统(包括VMware)的计算网格,并通过vLAN(IP)、vSAN(光纤通道),NFS,甚至通过CIFs(我们无法通过CIFS启动,但可以测试CIFS功能)将其连接至五个可能的存储网格中的任意一个。典型的虚拟环境(可能包括100个服务器、多个操作系统及5-6个存储控制器)通常在一个小时或更短时间内就可启动运行。我们创建过的最复杂的环境花了近10个小时才启动运行,它包括500个服务器、30个NetApp FAS 6070、72个300GB FC驱动器托架(约500TB)及DataONTAPGX操作系统。
无论何时,该实验室都在运行着12~15个虚拟环境,用于从产品和互操作性测试、故障诊断到概念验证测试的一切任务。管理员可以通过中断服务器并高效地创建该系统的空间派生克隆(使用FlexClone)来预先进行测试。甚至在其它系统上(虽然具有同样的体系结构)。也可以保存或与其他用户共享任何环境的测试配置,并在数月或数年后重新运行。而且一旦构建环境之后,也不再需要重新构建,非常省事儿。比如说。我们构建了RedHat Linux环境并且依据要求在该环境下加Oracle 10g。测试完毕后,用户可以创建克隆。并且将来必要时可重新使用该预配置环境。
还有一点值得0强调的是,用户可以在世界各地访问和管理这些虚拟环境。在NetApp全球六个公司就职的工程师或全球任何位置的NetApp系统工程师都可以远程规划资源并运行相关测试。
最初的Kilo-Cllent设计允许我们使用硬件启动端(iSCSI HBA)通过iSCSI来启动服务器刀片。现在我们可使用以下四种方法中的任意一种来启动服务器:
★使用硬件启动端(1,218个刀片)通过iSCSI来启动
★使用软件启动端(整个环境)通过iSCSI来启动
★使用FCHBA(280个刀片)通过光纤通道来启动
★通过NFS(整个环境)来启动
这样我们就可以测试并比较各种环境和启动方{去。如果我们并非专门测试启动方法,则可根据测试要求来定制方法。比如,如果有人想通过故障注入来执行光纤通道测试。我们一般会通过iSCSI或NFS来启动正用于进行其它测试的服务器,从而闲置光纤通道以便进行测试。
3 通过10GBE实现iSCSI
不久以前。Kilo-Client又通过IBMBlade Center制作了一个测试套件,连接NetApp集群的NetXen控制器也配备了10千兆位以太网卡。并采用端到端10千兆位以太网的配置,可使用iSCSI进行无盘启动。到目前为止,大部分功能测试已完成,该体系结构让我们能够对10千兆位以太网与光纤通道以及希望测试的其它产品进行大范围的性能比较。
4 自动化配置管理
创建Kilo-Client时,有一些脚本可用来帮助处理配置及相关事项。由于可以随意使用,这也是薄弱的环节。而新的工作程序则要求遵循可预测模式,这包括规划,配置、监控、根据负载调节资源、撤消配置、重新规划等等。
这里有一个自动化框架,可以处理所有这些任务的大约70%,这是一个很大的进步。受困于可扩展性问题的客户对这种管理方法很感兴趣,因为它体现了数量极为有限的员工可以如何有效地管理动态、高容量,高要求的环境。
5 简化配置
在Gartner的一名分析人员指出Kilo-Client是现实中的一个规模最大、最好的简化配置实例之前,我实际上从未将“简化配置”这个术语与Kilo-Client关联起来。他说得对,我们的实验室极具空间效益,可提供1500倍以上的容量效率,因为克隆映像(LUN)仅占用启动映像更改所需的额外磁盘空间。
比如,我们想使用Red Hat Linux启动所有1498个服务器。我们的测试实验室需要的存储总量是7.63TB(假定七个启动存储系统每个需要20GB,每个刀片需要5GB)。在传统的服务器群(甚至采用传统的无盘启动)中,每个服务器足足需要20GB,这样我们的存储总量就需要30TB。天啊!正如我前面所说,配置和管理集群所花的时间比运行测试的时间还要多。
6 针对紧密配置的冷却设计
人们经常问一个问题,“究竟有什么办法来冷却这个庞然大物?”。而在这里,简化配置实际上己令它需要冷却的热量远不及传统环境中的热量。
固然,将1500个刀片、7102个Fabric端口和87个存储控制器集中到一个区域,设备确实是非常密集。在传统的数据中心,大都采用热通道/冷通道方法。在设备的前面(吸入空气的地方)添加了额外的冷却设备,从而制作了一个冷通道。这使得由前至后形成了30度角。
新的实验室采取了一种不同的方法——建立了一个制冷室。采用全新的地板到天花板式机柜,并确保由前至后的所有缝隙都已完全密封,从而形成一个空调系统。设备前面的冷气只能在设备内流动,并且也决不会与设备后面散出的热气混合在一起。冷空气一侧的气压也要稍高一些,以确保气流仅往一个方向流动。使用此方法,在实验室中实现了约8kW的冷却效果,而先前的设计只能达到4kW。
以上这些在服务器虚拟化方面应用的具体经验,可能是很多企业在改造自己的数据中心或企业服务器平台时都会遇到的问题。大家一起分享这些实际经验,相信会对今后服务器虚拟化改造的进程带来帮助。
Kilo-Client测试实验室的设计初衷就是为了能够针对大型网格或服务器群产品进行测试,并快速重现企业用户在这种环境中可能遇到的问题。它最初包括了通过iSCSI启动的1120个服务器刀片。后来该实验室又添加了98个带iSCSIHBA的刀片和280个能够通过光纤通道启动的刀片,最终形成了1500个节点的服务器群。
这里有几个Kilo-Client测试实验室设计当中,客户和合作伙伴最感兴趣的热点问题,非常值得我们关注。
1 快速配置服务器
快速配置意味着必须能够通过任意操作系统/应用程序环境快速启动服务器。我们这里使用NetApp FlexClone技术快速创建系统映像,而无需对这些映像进行完全的物理拷贝。
我们为服务器群中所需的每个操作系统和应用程序堆栈创建一套“黄金”启动映像(如iSCSI、光纤通道SANLUN)。使用SnapMirror和FlexClone,并快速复制出数百个克隆(每台配置用于测试的服务器一个FlexClone克隆)。然后将特定于主机的“个性化”添加到每个受配置服务器的核心映像,从而使我们在数分钟内即可配置并启动全部或部分刀片。
2 虚拟环境
接下来,我们还需要进一步快速配置完整的虚拟环境,其中包括计算网格、互连Fabric及存储网格。
我们可以自动配置几乎可运行所有操作系统(包括VMware)的计算网格,并通过vLAN(IP)、vSAN(光纤通道),NFS,甚至通过CIFs(我们无法通过CIFS启动,但可以测试CIFS功能)将其连接至五个可能的存储网格中的任意一个。典型的虚拟环境(可能包括100个服务器、多个操作系统及5-6个存储控制器)通常在一个小时或更短时间内就可启动运行。我们创建过的最复杂的环境花了近10个小时才启动运行,它包括500个服务器、30个NetApp FAS 6070、72个300GB FC驱动器托架(约500TB)及DataONTAPGX操作系统。
无论何时,该实验室都在运行着12~15个虚拟环境,用于从产品和互操作性测试、故障诊断到概念验证测试的一切任务。管理员可以通过中断服务器并高效地创建该系统的空间派生克隆(使用FlexClone)来预先进行测试。甚至在其它系统上(虽然具有同样的体系结构)。也可以保存或与其他用户共享任何环境的测试配置,并在数月或数年后重新运行。而且一旦构建环境之后,也不再需要重新构建,非常省事儿。比如说。我们构建了RedHat Linux环境并且依据要求在该环境下加Oracle 10g。测试完毕后,用户可以创建克隆。并且将来必要时可重新使用该预配置环境。
还有一点值得0强调的是,用户可以在世界各地访问和管理这些虚拟环境。在NetApp全球六个公司就职的工程师或全球任何位置的NetApp系统工程师都可以远程规划资源并运行相关测试。
最初的Kilo-Cllent设计允许我们使用硬件启动端(iSCSI HBA)通过iSCSI来启动服务器刀片。现在我们可使用以下四种方法中的任意一种来启动服务器:
★使用硬件启动端(1,218个刀片)通过iSCSI来启动
★使用软件启动端(整个环境)通过iSCSI来启动
★使用FCHBA(280个刀片)通过光纤通道来启动
★通过NFS(整个环境)来启动
这样我们就可以测试并比较各种环境和启动方{去。如果我们并非专门测试启动方法,则可根据测试要求来定制方法。比如,如果有人想通过故障注入来执行光纤通道测试。我们一般会通过iSCSI或NFS来启动正用于进行其它测试的服务器,从而闲置光纤通道以便进行测试。
3 通过10GBE实现iSCSI
不久以前。Kilo-Client又通过IBMBlade Center制作了一个测试套件,连接NetApp集群的NetXen控制器也配备了10千兆位以太网卡。并采用端到端10千兆位以太网的配置,可使用iSCSI进行无盘启动。到目前为止,大部分功能测试已完成,该体系结构让我们能够对10千兆位以太网与光纤通道以及希望测试的其它产品进行大范围的性能比较。
4 自动化配置管理
创建Kilo-Client时,有一些脚本可用来帮助处理配置及相关事项。由于可以随意使用,这也是薄弱的环节。而新的工作程序则要求遵循可预测模式,这包括规划,配置、监控、根据负载调节资源、撤消配置、重新规划等等。
这里有一个自动化框架,可以处理所有这些任务的大约70%,这是一个很大的进步。受困于可扩展性问题的客户对这种管理方法很感兴趣,因为它体现了数量极为有限的员工可以如何有效地管理动态、高容量,高要求的环境。
5 简化配置
在Gartner的一名分析人员指出Kilo-Client是现实中的一个规模最大、最好的简化配置实例之前,我实际上从未将“简化配置”这个术语与Kilo-Client关联起来。他说得对,我们的实验室极具空间效益,可提供1500倍以上的容量效率,因为克隆映像(LUN)仅占用启动映像更改所需的额外磁盘空间。
比如,我们想使用Red Hat Linux启动所有1498个服务器。我们的测试实验室需要的存储总量是7.63TB(假定七个启动存储系统每个需要20GB,每个刀片需要5GB)。在传统的服务器群(甚至采用传统的无盘启动)中,每个服务器足足需要20GB,这样我们的存储总量就需要30TB。天啊!正如我前面所说,配置和管理集群所花的时间比运行测试的时间还要多。
6 针对紧密配置的冷却设计
人们经常问一个问题,“究竟有什么办法来冷却这个庞然大物?”。而在这里,简化配置实际上己令它需要冷却的热量远不及传统环境中的热量。
固然,将1500个刀片、7102个Fabric端口和87个存储控制器集中到一个区域,设备确实是非常密集。在传统的数据中心,大都采用热通道/冷通道方法。在设备的前面(吸入空气的地方)添加了额外的冷却设备,从而制作了一个冷通道。这使得由前至后形成了30度角。
新的实验室采取了一种不同的方法——建立了一个制冷室。采用全新的地板到天花板式机柜,并确保由前至后的所有缝隙都已完全密封,从而形成一个空调系统。设备前面的冷气只能在设备内流动,并且也决不会与设备后面散出的热气混合在一起。冷空气一侧的气压也要稍高一些,以确保气流仅往一个方向流动。使用此方法,在实验室中实现了约8kW的冷却效果,而先前的设计只能达到4kW。
以上这些在服务器虚拟化方面应用的具体经验,可能是很多企业在改造自己的数据中心或企业服务器平台时都会遇到的问题。大家一起分享这些实际经验,相信会对今后服务器虚拟化改造的进程带来帮助。