论文部分内容阅读
开放计算项目(OCP)在2011年启动,Facebook在当时公布了一些其自制服务器的设计,这些服务器旨在让Facebook的数据中心更为高效地运行。
Facebook希望其他的公司能够采用和修改他们的最初设计,在降低成本的同时提升质量。他们确实做到了:针对开放计算项目设计的硬件销售额在2017年达到了12亿美元,这一销售额是上一年度的两倍,预计到2021年有望达到60亿美元。
在IHS Markit的评估中,这些数字排除了OCP委员会成员Facebook、英特尔、Rackspace、微软和高盛在硬件方面的开支。上述这些公司均在一定程度上使用OCP。这部分的开支仍然只占数据中心系统总体市场的一小部分。据Gartner预测,整个市场在2017年达到1780亿美元。虽然Gartner预测整个市场到2019年将进入停滞期,但HIS预测OCP部分将以每年59%的速度增长。
部署OCP的原因
当Facebook为他们位于俄勒冈州普赖恩维尔的首个专用数据中心设计硬件时,他们希望能够在能源、材料和资金这三个方面实现节约。
通过降低能源供应损耗和将服务器设计的更高,Facebook有效地提升了能源效率。服务器设计的更高可以为更大且更为高效的散热片留出空间,这也意味着可以使用直径更大的风扇,从而只需要很少的电力就可以让更多的空气流动起来。
通过取消无用的面板、涂装、标志、不需要的扩展插槽和组件(如视频卡,甚至是安装螺钉),每台服务器节省了超过6磅重的材料。
由于不用为未消耗的电力或未使用的部件付钱,这势必会降低成本。另外,它们还节约了劳动力:没有了安装螺钉,拆装服务器都非常便捷;标准化节约了处理备件的时间,整个系统可以更为迅速地部署。
部署OCP面临的障碍
在2018年的开支研究中,IHS Markit认为OCP硬件部署主要面临三大障碍,分别为:安全、货源和整合。
向所有人公布OCP硬件制造规范的一个风险是任何人都可以制造。这导致别有用心的人在交付前会篡改它们,并且谁也不会知道。换句话说,供应链的安全是一个很大的问题。
安全
在2018年3月于美国圣何塞召开的OCP峰会上,OCP领袖们表示,他们正在通过创建新的安全项目(Security Project)来解决供应链安全问题。新的安全项目重点是制定一个标准的硬件接口和协议,以确保启动代码的完整性。
微软已经贡献了他们的Project Cerberus。Project Cerberus为符合《NIST 800-192平台固件防灾指南》的主板固件的硬件信任根。
他們以此为基础还计划开发安全固件API、针对专用安全硬件的开源固件、安全的固件配置方法,以及能够核实所有易变存储(包括BIOS、微控制器和复杂可编程逻辑器件CPLD的闪存)和确保安全的工具。在这方面,正在接收OCP硬件的企业能够确保收到的硬件只能运行他们希望运行的固件。
该项目的主管并不担心新的硬件,相反他们正在考虑的是二手设备。为了确保转售市场的安全,他们将考虑提供可以将硬件从不安全或不受信状态恢复过来工具和能够追踪和修改硬件所有权的工具。
软硬件整合
将硬件和软件整合起来比较容易,自从微软加入到OCP委员会并贡献出了用于向客户交付Azure服务的机架和服务器设计后,在操作系统层面的整合变得尤为容易。目前在其他层面的整合工作还在继续,包括能够让OCP服务器启动的最底层固件。
另一个新的OCP方案——开放系统固件项目(Open System Firmware Project)也希望解决这一问题。该项目致力于将初始化服务器芯片组的代码实现开源,以让其能够被用于不同平台和不同类型的处理器上。此外,该项目还打算以UEFI和Linux Boot项目为基础为所有的云操作系统和数据中心的处理器架构提供支持,包括GPU、FPGA和针对机器学习等应用进行专门优化过的硬件。
随着开放计算硬件逐步在网络虚拟化中占据一席之地,OCP还在着手将开放软件和硬件整合在一起。思科系统和瞻博网络等传统网络设备厂商也在紧张地将两者整合起来,向用户交付为专利软件量身打造的专利硬件。
如今,OCP正在与Linux基金会合作将他们的硬件与后者网络功能虚拟化开放平台(OPNFV)软件整合在一起。近期,这两个组织承诺将联合测试硬件和软件产品以确保产品符合各自的规范。
到哪里购买OCP设备
寻找开放计算项目硬件的货源已经变得非常容易了。该项目的网站上有一个市场页面,我们可以在这里研究设备规范和联系开放计算项目厂商。
目前已经有100多款产品获得了OCP授权或认证。OCP授权标签仅供那些完全符合当前OCP规范且由OCP银牌、金牌或铂金成员制造的产品使用。OCP认证产品可由任意厂商制造,但是必须要完全符合当前OCP规范同时必须要提供开源设计文件。
开放计算项目硬件的类型
虽然项目的早期重点是OCP服务器和电力供应,不过如今该项目已经逐渐将机架、存储和开放计算项目网络也纳入其中。该组织目前已经接受了开放的Wi-Fi硬件规范。
OCP服务器尽管是以简单的商用设备为出发点,但是它们正在逐渐发生变化,因为针对不同工作负载的专用服务器和机器学习应用对计算的需求正在影响着设计。
Facebook正在持续推动OCP服务器的发展。在2018年美国圣何塞OCP峰会上,Facebook展示了他们的第三代机器学习平台Big Basin v2。该平台使用的是Nvidia Tesla V100 GPU,与之前Big Basin v1使用的P100相比,这是一个很大提升。新处理器在性能方面提升了大约三分之二。对此,Facebook称得益于对Big Basin设计上的一些调整,除了处理器数量有所增加,平台保持了几乎全部的优点。
Facebook还展示了一个名为Fabric Aggregator的新系统。该系统被设计用于连接同一区域内的相邻数据中心,以及将数据中心区域与其他数据中心区域相互连接。通过使用Facebook自己的OPC 100G交换机、Wedge 100和FBOSS(Facebook开放交换系统)软件,Fabric Aggregator允许类似Facebook的网络公司独立地扩展区域内和区域间流量。
微软也希望能够分享开放交换市场。其容器化的SONiC(云端开放网络软件)已经进入到了迈勒罗斯科技(Mellanox Technologies)公司的新设备当中,允许企业将本地的架顶交换机迁移至Azure云上。这使得微软能够将硬件厂商的销售额为自己的云服务所用。
通过另一个OCP方案,微软不再修改存储市场的架构。闪存设备和存储子系统制造商对于处理地址映射、垃圾收集和损耗均衡的信息应当驻留在何处并没有达成一致意见。将这些信息放在存储子系统中对于工作站或消费级设备具有意义,但是在云服务功能中,例如垃圾收集,如果控制器不知道数据来自何处,那么处理将会变慢并出现浪费。这也是为什么存储系统缓存通常会混杂着来自不同应用和虚拟机的数据——在不同时间将被释放出来的数据。借助于Denali项目,微软希望让OCP存储设备制造商将这一信息转移至更高层的堆栈上,从SSD驱动器转移至主机上,从而允许其为特定的工作负载修改驱动器行为方式。
Facebook希望其他的公司能够采用和修改他们的最初设计,在降低成本的同时提升质量。他们确实做到了:针对开放计算项目设计的硬件销售额在2017年达到了12亿美元,这一销售额是上一年度的两倍,预计到2021年有望达到60亿美元。
在IHS Markit的评估中,这些数字排除了OCP委员会成员Facebook、英特尔、Rackspace、微软和高盛在硬件方面的开支。上述这些公司均在一定程度上使用OCP。这部分的开支仍然只占数据中心系统总体市场的一小部分。据Gartner预测,整个市场在2017年达到1780亿美元。虽然Gartner预测整个市场到2019年将进入停滞期,但HIS预测OCP部分将以每年59%的速度增长。
部署OCP的原因
当Facebook为他们位于俄勒冈州普赖恩维尔的首个专用数据中心设计硬件时,他们希望能够在能源、材料和资金这三个方面实现节约。
通过降低能源供应损耗和将服务器设计的更高,Facebook有效地提升了能源效率。服务器设计的更高可以为更大且更为高效的散热片留出空间,这也意味着可以使用直径更大的风扇,从而只需要很少的电力就可以让更多的空气流动起来。
通过取消无用的面板、涂装、标志、不需要的扩展插槽和组件(如视频卡,甚至是安装螺钉),每台服务器节省了超过6磅重的材料。
由于不用为未消耗的电力或未使用的部件付钱,这势必会降低成本。另外,它们还节约了劳动力:没有了安装螺钉,拆装服务器都非常便捷;标准化节约了处理备件的时间,整个系统可以更为迅速地部署。
部署OCP面临的障碍
在2018年的开支研究中,IHS Markit认为OCP硬件部署主要面临三大障碍,分别为:安全、货源和整合。
向所有人公布OCP硬件制造规范的一个风险是任何人都可以制造。这导致别有用心的人在交付前会篡改它们,并且谁也不会知道。换句话说,供应链的安全是一个很大的问题。
安全
在2018年3月于美国圣何塞召开的OCP峰会上,OCP领袖们表示,他们正在通过创建新的安全项目(Security Project)来解决供应链安全问题。新的安全项目重点是制定一个标准的硬件接口和协议,以确保启动代码的完整性。
微软已经贡献了他们的Project Cerberus。Project Cerberus为符合《NIST 800-192平台固件防灾指南》的主板固件的硬件信任根。
他們以此为基础还计划开发安全固件API、针对专用安全硬件的开源固件、安全的固件配置方法,以及能够核实所有易变存储(包括BIOS、微控制器和复杂可编程逻辑器件CPLD的闪存)和确保安全的工具。在这方面,正在接收OCP硬件的企业能够确保收到的硬件只能运行他们希望运行的固件。
该项目的主管并不担心新的硬件,相反他们正在考虑的是二手设备。为了确保转售市场的安全,他们将考虑提供可以将硬件从不安全或不受信状态恢复过来工具和能够追踪和修改硬件所有权的工具。
软硬件整合
将硬件和软件整合起来比较容易,自从微软加入到OCP委员会并贡献出了用于向客户交付Azure服务的机架和服务器设计后,在操作系统层面的整合变得尤为容易。目前在其他层面的整合工作还在继续,包括能够让OCP服务器启动的最底层固件。
另一个新的OCP方案——开放系统固件项目(Open System Firmware Project)也希望解决这一问题。该项目致力于将初始化服务器芯片组的代码实现开源,以让其能够被用于不同平台和不同类型的处理器上。此外,该项目还打算以UEFI和Linux Boot项目为基础为所有的云操作系统和数据中心的处理器架构提供支持,包括GPU、FPGA和针对机器学习等应用进行专门优化过的硬件。
随着开放计算硬件逐步在网络虚拟化中占据一席之地,OCP还在着手将开放软件和硬件整合在一起。思科系统和瞻博网络等传统网络设备厂商也在紧张地将两者整合起来,向用户交付为专利软件量身打造的专利硬件。
如今,OCP正在与Linux基金会合作将他们的硬件与后者网络功能虚拟化开放平台(OPNFV)软件整合在一起。近期,这两个组织承诺将联合测试硬件和软件产品以确保产品符合各自的规范。
到哪里购买OCP设备
寻找开放计算项目硬件的货源已经变得非常容易了。该项目的网站上有一个市场页面,我们可以在这里研究设备规范和联系开放计算项目厂商。
目前已经有100多款产品获得了OCP授权或认证。OCP授权标签仅供那些完全符合当前OCP规范且由OCP银牌、金牌或铂金成员制造的产品使用。OCP认证产品可由任意厂商制造,但是必须要完全符合当前OCP规范同时必须要提供开源设计文件。
开放计算项目硬件的类型
虽然项目的早期重点是OCP服务器和电力供应,不过如今该项目已经逐渐将机架、存储和开放计算项目网络也纳入其中。该组织目前已经接受了开放的Wi-Fi硬件规范。
OCP服务器尽管是以简单的商用设备为出发点,但是它们正在逐渐发生变化,因为针对不同工作负载的专用服务器和机器学习应用对计算的需求正在影响着设计。
Facebook正在持续推动OCP服务器的发展。在2018年美国圣何塞OCP峰会上,Facebook展示了他们的第三代机器学习平台Big Basin v2。该平台使用的是Nvidia Tesla V100 GPU,与之前Big Basin v1使用的P100相比,这是一个很大提升。新处理器在性能方面提升了大约三分之二。对此,Facebook称得益于对Big Basin设计上的一些调整,除了处理器数量有所增加,平台保持了几乎全部的优点。
Facebook还展示了一个名为Fabric Aggregator的新系统。该系统被设计用于连接同一区域内的相邻数据中心,以及将数据中心区域与其他数据中心区域相互连接。通过使用Facebook自己的OPC 100G交换机、Wedge 100和FBOSS(Facebook开放交换系统)软件,Fabric Aggregator允许类似Facebook的网络公司独立地扩展区域内和区域间流量。
微软也希望能够分享开放交换市场。其容器化的SONiC(云端开放网络软件)已经进入到了迈勒罗斯科技(Mellanox Technologies)公司的新设备当中,允许企业将本地的架顶交换机迁移至Azure云上。这使得微软能够将硬件厂商的销售额为自己的云服务所用。
通过另一个OCP方案,微软不再修改存储市场的架构。闪存设备和存储子系统制造商对于处理地址映射、垃圾收集和损耗均衡的信息应当驻留在何处并没有达成一致意见。将这些信息放在存储子系统中对于工作站或消费级设备具有意义,但是在云服务功能中,例如垃圾收集,如果控制器不知道数据来自何处,那么处理将会变慢并出现浪费。这也是为什么存储系统缓存通常会混杂着来自不同应用和虚拟机的数据——在不同时间将被释放出来的数据。借助于Denali项目,微软希望让OCP存储设备制造商将这一信息转移至更高层的堆栈上,从SSD驱动器转移至主机上,从而允许其为特定的工作负载修改驱动器行为方式。