论文部分内容阅读
提到AI计算芯片和加速卡,人们第一时间想到的往往是英伟达推出的A系列、T系列产品。实际上随着国内芯片设计的发展,目前国内也有多家厂商推出了和AI计算相关的加速芯片和加速卡,比如百度、阿里等。日前,燧原科技推出了他们旗下最新的AI计算芯片和加速卡,从规模来看,燧原科技这次推出的产品可谓中国目前最大,在性能方面也和国外同档次产品有一战之力。下面,我们就和你一起走近燧原科技,了解一下其推出的邃思芯片和云燧加速卡。
燧原科技是位于上海的一家半导体初创企业,其英文名为“Enflame”。燧原科技的两位创始人分别是CEO赵立冬和COO张亚林。其中,赵立冬拥有清华大学电子工程学士和美国犹他州立大学电子计算机硕士学位,曾在S3、AMD、紫光、锐迪科等企业工作过,最高职位是紫光集团副总裁。张亚林则是复旦大学电子工程学士学位获得者,同样有AMD工作背景,并领导定制开发了Xbox One主芯片,管理和发展了AMD上海、北京研发部门等。从燧原科技两位创始人的背景可以看出,他们均有专业电子、集成电路的学习、工作背景,都曾经在全球领先的一线企业拥有多年工作经验和丰富的行业资源。
燧原科技将自己定义为一家“专注人工智能领域云端算力平台,致力为人工智能产业发展提供普惠的基础设施解决方案,提供自主知识产权的高算力、高能效比、可编程的通用人工智能训练和推理产品”的企业。目前,其推出的人工智能训练和推理产品品牌为云燧,芯片产品品牌为邃思,软件品牌为驭算。
在了解了燧原科技的基本情况后,让我们一起来看看本次燧原科技发布的全新产品的相关信息。
国内最大的AI云端训练芯片:速思2.0
本次发布会最大的惊喜就是邃思2.0芯片。从基板尺寸来看它是目前国内最大的AI芯片。邃思2.0芯片的封装尺寸长宽均为57.5mm,整体封装面积达到了3306.25mm2,不過这个数据是否包含了基板长度暂时不得而知。相比之下,英伟达的A100计算芯片同样采用了HBM方案,其不包括HBM存储的A100计算芯片面积仅为862mm2,和邃思2.0的数据相比差异相当大,其主要原因可能是厂商统计数据的方法存在差异。
和这种计算芯片通常采用7nm甚至更高端的5nm工艺有所不同的是,邃思2.0采用的是格芯(格罗方德)的12nm工艺。有关工艺制程的信息,在发布会上并没有做太多介绍,但是可能使用的就是格罗方德在2018年发布的12nm FD-SOI工艺。这个工艺的优势在于能够实现极高的集成度,并且FD-SOI技术的引入也使得整个芯片的功耗下降、性能提升。格芯的数据显示,FD-SOI技术引入之后,他们的12nm工艺能够以低于16nm FinFET的功耗实现基本等同于10nm FinFET的性能,或者说相比16nm FinFET工艺性能提升15%,功耗降低50%。
虽然格芯12nm FD-SOI工艺的整体表现在同代工艺中算是佼佼者,但是考虑到半导体制造的代差碾压现象的存在,如果燧原科技能够采用台积电的7nm工艺或者更新的5nm工艺来制造产品的话,那么整个芯片的规模、性能、功耗等应该会再上一个台阶。那么,为什么燧原科技选择了比较老旧的工艺来制造这款产品呢?其主要原因可能还是综合考虑了成本、市场以及产品等因素。
对燧原科技这样的初创公司来说,台积电的7nm、5nm工艺自然是好的,但是高昂的流片费用和相关制造成本在没有较大的市场来分摊的情况下,最终体现到产品上就是昂贵的单片售价。市场是敏感的,初创公司的新品在技术、性能上没有绝对优势的前提下,如果成本和价格再没有优势的话,那么相比成熟公司或者跨国企业的产品,初创公司的产品就很难得到市场和买家的关注。因此很多初创企业在早期都会提供相对于市场上成熟产品大致相当的性能,却低得多的价格,或者背靠某个大企业进行定向采购,毕竟对芯片这种产品来说,有人用才能实现有效迭代。宁可早期少赚、不赚甚至略亏,都一定要在自己的能力范围内维持整个市场的存在感和自己的产业生态圈,才能在—次次迭代中不断升级,形成自己在技术、产业和生态上的竞争优势。
从这点来考虑,燧原科技在邃思2.0上采用12nmT艺是合理的,也是目前市场竞争条件下的最优解。
邃思2.0采用2.5D圭寸装设计,整合79颗芯片。从芯片的外表面可以看出,邃思2.0拥有一个计算核心和4个HBM2E存储芯片,加起来一共有5个芯片。考虑到它封装79颗芯片,那么可能在下部还集成74颗HBM2E芯片,最终达成了64GB的规格。
继续来看产品的相关参数。算力方面,邃思2.0的单精度FP32算力为40TFLOPs,单精度张量TF32算力为160TFLOPS,整数INT8算力为320TOPs。此外,燧原科技宣称邃思2.0支持目前所有的AI精度,包括FP32、TF32、FP16、BF16和INT8,不过由于发布会给出的消息不多,燧原科技没有给出部分数据精度格式下的算力情况,比如BF16(不过后文的性能测试有从侧面透露出一些信息)。另外对于一些特殊情况下的算力优化情况,发布会上也没有进行介绍。
相比目前最快的英伟达A100,A100的FP32算力为19.5TFLOPS,TF32算力为156TFLOPS,BF16算力为321TFLOPS,INT8算力为624TOPS。虽然从绝对理论数值上来看,A100 GPU的在FP32、TF32算力都要落后于邃思2.0。但是最核心的问题在于,A100在目前AI计算比较常用的BF16和INT8格式上算力大幅领先邃思2.0。不仅如此,在计算目标是稀疏矩阵的情况下,A100 GPU的TF32、BF16和INT8算力会直接翻倍,这就不仅仅是硬件规模可以决定的内容了,
邃思2.0芯片采用了HBM2E的存储方案,最高可以支持64GB容量的本地存储,带宽最高为1.8TB/s。外部接口则采用的是PCIe 4.0 x16,这也是目前主流的AI计算设备上常用的接口之一。 值得注意的是,邃思2.0在扩展性上拥有独特设计。其芯片内部设计了专用的通道,被称为GCU-LARE燧原智能互联总线,单路可以实现双向50GB/s的带宽。邃思2.0内部拥有6路设计,总计可以实现300GB/s的双向互联带宽。由于独特的互联端口,邃思2.0可以提供互联扩展算力的功能。这个功能非常重要,这意味着邃思2.0摆脱了传统芯片仅仅依靠PCIe总线沟通系统和互联的设计,而是可以依靠自己定义的总线自组织成网,这就为邃思2.0芯片的大规模、集群化应用打好了基础。
除了上述内容外,燧原科技没有详细地对整个芯片的架构、设计等内容进行介绍。希望未来能公布更详细的资料,使得大家也可以一窥芯片的架构和设计。
燧原科技的加速计算卡:云燧T20和云燧T21
除了芯片产品邃思2.0外,燧原科技还在此次发布会上推出了加速计算卡新品,其产品型号为云燧T20和云燧T21。
先来看看云燧T20,这款产品采用的是传统PCIe设备外观,需要占用双插槽。从外观来看和一般的显卡没有太大差别。不过云燧T20外壳没有设计散热器,应该是放置在机架中进行统一散热。云燧T20和云燧T21的TDP功耗分别为300W和400W。
除了云燧T20外,燧原科技还推出了云燧T21,采用的是OAM模组设计。所谓OAM,是指OCP Accelerator Module,也就是OCP加速模块,这是百度、微软等企业联合推出的标准,用于标准化AI硬件加速模块的系统设计。OAM标准定义了一整套方案,包括AI加速硬件在主板、机箱、供电、散热等方面的规范,通过OAM规范,类似云燧T21这样的产品就可以在不同的AI加速设备中兼容使用。从外观上来看,云燧T21和我们传统印象中的PCIe设备差别很大,更像是自带了散热器和底座的CPU模块。
目前云燧T20和T21全系列产品都支持单机多卡互联、多机多卡互联和超大规模集群互联。其中单机多卡互联适用于主流AI服务器,单机支持8张加速卡互联,适合中小型深度学习训练场景。多机多卡的规模进一步扩大至数百张卡,可以支持中大型企业、院校运行深度学习训练的场景。最大的则是超大规模集群互联,支持以干为单位的节点互联,适用于云计算、超算中心等场景。
值得一提的是,由于邃思2.0加入了相关互联总线设计,因此组建多卡互联系统很方便。在发布会上还展示了燧原科技和合作伙伴打造的云燧智算集群CloudBlazer Matrix 2.0。这个集群中包含了8192张云燧训练卡和DTU芯片,能够以80%的线性度输出性能,最高可以实现1.3E级别的单精度计算能力。目前,全.球尚未有其他设备能够以1.3E(大约130000TFLOPS)的算力输出性能,云燧智算集群是首个能够达到这样高度的产品。
在发布会上燧原科技还介绍了旗下驭算Topsrider 2.0架构的相关内容。目前驭算Topsrider 2.0主要支持更高算力,支持更便捷高效的开发和更灵活通用的场景。燧原科技展示了驭算Topsrider 2.0的架构图,最底层是云燧T10系列和云燧T20系列硬件,通过驱动层,进入上层SDK层之后,驭算Topsrider 2.0可以支持TensorFlow、Pytorch、MxNet、OnnX等主流框架,最后再进入应用层。目前驭算Topsrider 2.0也提供了非常完善的编译器、工具链、图形化整合开发环境、自编译支持以及高性能运行支持,非常方便。
比肩业内顶级的部分性能
和国内目前很多AI芯片厂商的产品“只闻楼梯响,不见人下来”,性能总是模模糊糊相比,燧原科技在发布会上大大方方地展示了云燧T20系列的性能。虽然竞争对手只写了“友商旗舰”,但考虑到就算不是英伟达A100,而是上代旗舰产品,也说明了云燧T20产品已经颇具市场竞争力,要知道这还是一款12nm工艺制造的产品。
从燧原科技展示的信息可以看到,云燧T20在TF32性能的图像识别和分类、NLP、目标检测、图像分割等方面,基本上和友商旗舰水平相当。其中比较弱势的是NLP和目标检测,最差情况下只有对比产品的60%和80%性能。较好的是图像分割、图像识别和分类,基本拥有超过友商旗舰的性能。在和友商次旗舰的对比中,云燧T20的性能领先幅度分别在1.5倍到4.5倍之间,整体性能不错。
在和两款GPU对比的情况下,云燧T20的FP32算力是GPU1的2.1倍、TF32算力是GPU1的8.6倍,其余的BF16算力、内存带宽、内存容量和互联带宽基本上可以达到GPU1的1~2倍,但是不如GPU2。考虑到云燧T20只是燧原科技的第二款产品,这样的性能已经值得肯定了。
燧原科技还使用云燧T20和上代云燧T10进行了对比。从数据来看,云燧T20的性能基本上是云燧T10的1.5~6.7倍,显示出不小的进步,尤其是TF32算力暴增6.7倍,这显示云燧T20在架构上针对TF32进行了充分优化。不过在BF16方面,云燧T20的整体性能提升幅度还不够。此外,在稀疏矩阵的性能优化上,云燧T20也没体现出明显优势,这是未来燧原科技需要努力加强的部分。
燧原产品定律发布,性能稳步提升
在发布会上,燧原科技还发布了未来的产品路线图。其计划在2023年发布新的云端训练产品T30和T31,每瓦特性能大约是2020年发布的初代T10和T11的14倍,大概也是最新发布的T20和T21的3.5倍左右。如此巨大的性能提升,新的产品在架构更新的同时,可能会采用全新工艺,使用更多的晶体管来实现更高的性能。
目前,燧原科技拥有推理计算产品云燧i10,即将发布的云燧i20的每瓦特性能是云燧i10的4倍,2023年发布的云燧i30的每瓦特性能应该是云燧i10的16倍左右,值得期待。
除了产品路线图,燧原科技还发布了“燧原产品定理”,那就是燧原科技的每一代产品相比前一代产品,在“平均业务”中,每瓦特性能要达到前代产品的至少3倍,每单位价格性能要达到前代产品的至少2倍,并且保持软件兼容性和可靠性等。
总的来看,燧原科技通过此次发布会展示了自己强大的技术研发能力和产品规划、应用能力。作为一个初创公司,燧原科技的AI加速芯片产品已经具备一定水準。同时燧原科技对未来产品的规划以及“燧原产品定理”的出现,也给人们展示了这家公司坚定自主研发、提升产品性能的信心。希望在未来的道路上,燧原科技能够坚持现在的研发主线,将自主AI芯片做得越来越好,越来越强。星星之火,可以燎原。
燧原科技是位于上海的一家半导体初创企业,其英文名为“Enflame”。燧原科技的两位创始人分别是CEO赵立冬和COO张亚林。其中,赵立冬拥有清华大学电子工程学士和美国犹他州立大学电子计算机硕士学位,曾在S3、AMD、紫光、锐迪科等企业工作过,最高职位是紫光集团副总裁。张亚林则是复旦大学电子工程学士学位获得者,同样有AMD工作背景,并领导定制开发了Xbox One主芯片,管理和发展了AMD上海、北京研发部门等。从燧原科技两位创始人的背景可以看出,他们均有专业电子、集成电路的学习、工作背景,都曾经在全球领先的一线企业拥有多年工作经验和丰富的行业资源。
燧原科技将自己定义为一家“专注人工智能领域云端算力平台,致力为人工智能产业发展提供普惠的基础设施解决方案,提供自主知识产权的高算力、高能效比、可编程的通用人工智能训练和推理产品”的企业。目前,其推出的人工智能训练和推理产品品牌为云燧,芯片产品品牌为邃思,软件品牌为驭算。
在了解了燧原科技的基本情况后,让我们一起来看看本次燧原科技发布的全新产品的相关信息。
国内最大的AI云端训练芯片:速思2.0
本次发布会最大的惊喜就是邃思2.0芯片。从基板尺寸来看它是目前国内最大的AI芯片。邃思2.0芯片的封装尺寸长宽均为57.5mm,整体封装面积达到了3306.25mm2,不過这个数据是否包含了基板长度暂时不得而知。相比之下,英伟达的A100计算芯片同样采用了HBM方案,其不包括HBM存储的A100计算芯片面积仅为862mm2,和邃思2.0的数据相比差异相当大,其主要原因可能是厂商统计数据的方法存在差异。
和这种计算芯片通常采用7nm甚至更高端的5nm工艺有所不同的是,邃思2.0采用的是格芯(格罗方德)的12nm工艺。有关工艺制程的信息,在发布会上并没有做太多介绍,但是可能使用的就是格罗方德在2018年发布的12nm FD-SOI工艺。这个工艺的优势在于能够实现极高的集成度,并且FD-SOI技术的引入也使得整个芯片的功耗下降、性能提升。格芯的数据显示,FD-SOI技术引入之后,他们的12nm工艺能够以低于16nm FinFET的功耗实现基本等同于10nm FinFET的性能,或者说相比16nm FinFET工艺性能提升15%,功耗降低50%。
虽然格芯12nm FD-SOI工艺的整体表现在同代工艺中算是佼佼者,但是考虑到半导体制造的代差碾压现象的存在,如果燧原科技能够采用台积电的7nm工艺或者更新的5nm工艺来制造产品的话,那么整个芯片的规模、性能、功耗等应该会再上一个台阶。那么,为什么燧原科技选择了比较老旧的工艺来制造这款产品呢?其主要原因可能还是综合考虑了成本、市场以及产品等因素。
对燧原科技这样的初创公司来说,台积电的7nm、5nm工艺自然是好的,但是高昂的流片费用和相关制造成本在没有较大的市场来分摊的情况下,最终体现到产品上就是昂贵的单片售价。市场是敏感的,初创公司的新品在技术、性能上没有绝对优势的前提下,如果成本和价格再没有优势的话,那么相比成熟公司或者跨国企业的产品,初创公司的产品就很难得到市场和买家的关注。因此很多初创企业在早期都会提供相对于市场上成熟产品大致相当的性能,却低得多的价格,或者背靠某个大企业进行定向采购,毕竟对芯片这种产品来说,有人用才能实现有效迭代。宁可早期少赚、不赚甚至略亏,都一定要在自己的能力范围内维持整个市场的存在感和自己的产业生态圈,才能在—次次迭代中不断升级,形成自己在技术、产业和生态上的竞争优势。
从这点来考虑,燧原科技在邃思2.0上采用12nmT艺是合理的,也是目前市场竞争条件下的最优解。
邃思2.0采用2.5D圭寸装设计,整合79颗芯片。从芯片的外表面可以看出,邃思2.0拥有一个计算核心和4个HBM2E存储芯片,加起来一共有5个芯片。考虑到它封装79颗芯片,那么可能在下部还集成74颗HBM2E芯片,最终达成了64GB的规格。
继续来看产品的相关参数。算力方面,邃思2.0的单精度FP32算力为40TFLOPs,单精度张量TF32算力为160TFLOPS,整数INT8算力为320TOPs。此外,燧原科技宣称邃思2.0支持目前所有的AI精度,包括FP32、TF32、FP16、BF16和INT8,不过由于发布会给出的消息不多,燧原科技没有给出部分数据精度格式下的算力情况,比如BF16(不过后文的性能测试有从侧面透露出一些信息)。另外对于一些特殊情况下的算力优化情况,发布会上也没有进行介绍。
相比目前最快的英伟达A100,A100的FP32算力为19.5TFLOPS,TF32算力为156TFLOPS,BF16算力为321TFLOPS,INT8算力为624TOPS。虽然从绝对理论数值上来看,A100 GPU的在FP32、TF32算力都要落后于邃思2.0。但是最核心的问题在于,A100在目前AI计算比较常用的BF16和INT8格式上算力大幅领先邃思2.0。不仅如此,在计算目标是稀疏矩阵的情况下,A100 GPU的TF32、BF16和INT8算力会直接翻倍,这就不仅仅是硬件规模可以决定的内容了,
邃思2.0芯片采用了HBM2E的存储方案,最高可以支持64GB容量的本地存储,带宽最高为1.8TB/s。外部接口则采用的是PCIe 4.0 x16,这也是目前主流的AI计算设备上常用的接口之一。 值得注意的是,邃思2.0在扩展性上拥有独特设计。其芯片内部设计了专用的通道,被称为GCU-LARE燧原智能互联总线,单路可以实现双向50GB/s的带宽。邃思2.0内部拥有6路设计,总计可以实现300GB/s的双向互联带宽。由于独特的互联端口,邃思2.0可以提供互联扩展算力的功能。这个功能非常重要,这意味着邃思2.0摆脱了传统芯片仅仅依靠PCIe总线沟通系统和互联的设计,而是可以依靠自己定义的总线自组织成网,这就为邃思2.0芯片的大规模、集群化应用打好了基础。
除了上述内容外,燧原科技没有详细地对整个芯片的架构、设计等内容进行介绍。希望未来能公布更详细的资料,使得大家也可以一窥芯片的架构和设计。
燧原科技的加速计算卡:云燧T20和云燧T21
除了芯片产品邃思2.0外,燧原科技还在此次发布会上推出了加速计算卡新品,其产品型号为云燧T20和云燧T21。
先来看看云燧T20,这款产品采用的是传统PCIe设备外观,需要占用双插槽。从外观来看和一般的显卡没有太大差别。不过云燧T20外壳没有设计散热器,应该是放置在机架中进行统一散热。云燧T20和云燧T21的TDP功耗分别为300W和400W。
除了云燧T20外,燧原科技还推出了云燧T21,采用的是OAM模组设计。所谓OAM,是指OCP Accelerator Module,也就是OCP加速模块,这是百度、微软等企业联合推出的标准,用于标准化AI硬件加速模块的系统设计。OAM标准定义了一整套方案,包括AI加速硬件在主板、机箱、供电、散热等方面的规范,通过OAM规范,类似云燧T21这样的产品就可以在不同的AI加速设备中兼容使用。从外观上来看,云燧T21和我们传统印象中的PCIe设备差别很大,更像是自带了散热器和底座的CPU模块。
目前云燧T20和T21全系列产品都支持单机多卡互联、多机多卡互联和超大规模集群互联。其中单机多卡互联适用于主流AI服务器,单机支持8张加速卡互联,适合中小型深度学习训练场景。多机多卡的规模进一步扩大至数百张卡,可以支持中大型企业、院校运行深度学习训练的场景。最大的则是超大规模集群互联,支持以干为单位的节点互联,适用于云计算、超算中心等场景。
值得一提的是,由于邃思2.0加入了相关互联总线设计,因此组建多卡互联系统很方便。在发布会上还展示了燧原科技和合作伙伴打造的云燧智算集群CloudBlazer Matrix 2.0。这个集群中包含了8192张云燧训练卡和DTU芯片,能够以80%的线性度输出性能,最高可以实现1.3E级别的单精度计算能力。目前,全.球尚未有其他设备能够以1.3E(大约130000TFLOPS)的算力输出性能,云燧智算集群是首个能够达到这样高度的产品。
在发布会上燧原科技还介绍了旗下驭算Topsrider 2.0架构的相关内容。目前驭算Topsrider 2.0主要支持更高算力,支持更便捷高效的开发和更灵活通用的场景。燧原科技展示了驭算Topsrider 2.0的架构图,最底层是云燧T10系列和云燧T20系列硬件,通过驱动层,进入上层SDK层之后,驭算Topsrider 2.0可以支持TensorFlow、Pytorch、MxNet、OnnX等主流框架,最后再进入应用层。目前驭算Topsrider 2.0也提供了非常完善的编译器、工具链、图形化整合开发环境、自编译支持以及高性能运行支持,非常方便。
比肩业内顶级的部分性能
和国内目前很多AI芯片厂商的产品“只闻楼梯响,不见人下来”,性能总是模模糊糊相比,燧原科技在发布会上大大方方地展示了云燧T20系列的性能。虽然竞争对手只写了“友商旗舰”,但考虑到就算不是英伟达A100,而是上代旗舰产品,也说明了云燧T20产品已经颇具市场竞争力,要知道这还是一款12nm工艺制造的产品。
从燧原科技展示的信息可以看到,云燧T20在TF32性能的图像识别和分类、NLP、目标检测、图像分割等方面,基本上和友商旗舰水平相当。其中比较弱势的是NLP和目标检测,最差情况下只有对比产品的60%和80%性能。较好的是图像分割、图像识别和分类,基本拥有超过友商旗舰的性能。在和友商次旗舰的对比中,云燧T20的性能领先幅度分别在1.5倍到4.5倍之间,整体性能不错。
在和两款GPU对比的情况下,云燧T20的FP32算力是GPU1的2.1倍、TF32算力是GPU1的8.6倍,其余的BF16算力、内存带宽、内存容量和互联带宽基本上可以达到GPU1的1~2倍,但是不如GPU2。考虑到云燧T20只是燧原科技的第二款产品,这样的性能已经值得肯定了。
燧原科技还使用云燧T20和上代云燧T10进行了对比。从数据来看,云燧T20的性能基本上是云燧T10的1.5~6.7倍,显示出不小的进步,尤其是TF32算力暴增6.7倍,这显示云燧T20在架构上针对TF32进行了充分优化。不过在BF16方面,云燧T20的整体性能提升幅度还不够。此外,在稀疏矩阵的性能优化上,云燧T20也没体现出明显优势,这是未来燧原科技需要努力加强的部分。
燧原产品定律发布,性能稳步提升
在发布会上,燧原科技还发布了未来的产品路线图。其计划在2023年发布新的云端训练产品T30和T31,每瓦特性能大约是2020年发布的初代T10和T11的14倍,大概也是最新发布的T20和T21的3.5倍左右。如此巨大的性能提升,新的产品在架构更新的同时,可能会采用全新工艺,使用更多的晶体管来实现更高的性能。
目前,燧原科技拥有推理计算产品云燧i10,即将发布的云燧i20的每瓦特性能是云燧i10的4倍,2023年发布的云燧i30的每瓦特性能应该是云燧i10的16倍左右,值得期待。
除了产品路线图,燧原科技还发布了“燧原产品定理”,那就是燧原科技的每一代产品相比前一代产品,在“平均业务”中,每瓦特性能要达到前代产品的至少3倍,每单位价格性能要达到前代产品的至少2倍,并且保持软件兼容性和可靠性等。
总的来看,燧原科技通过此次发布会展示了自己强大的技术研发能力和产品规划、应用能力。作为一个初创公司,燧原科技的AI加速芯片产品已经具备一定水準。同时燧原科技对未来产品的规划以及“燧原产品定理”的出现,也给人们展示了这家公司坚定自主研发、提升产品性能的信心。希望在未来的道路上,燧原科技能够坚持现在的研发主线,将自主AI芯片做得越来越好,越来越强。星星之火,可以燎原。