面向未来的高性能移动计算

来源 :微型计算机 | 被引量 : 0次 | 上传用户：jxczl900424

【摘要】

：

【作者】

：

张平

【出处】

：

微型计算机

【发表日期】

：

2021年8期

【关键词】

：

矢量寄存器指令集述语长度功能

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　ARM的首个指令集为Armv4，它于1990年发布。在随后的20年间，ARM陆续发布了Armv5、Armv6、Armv7这三代指令集，不断扩充着这个面向低功耗、高性能功耗比的精简指令集家族的阵容。最大的变化来自2011年，ARM当年发布了划时代的Armv8指令集，带来了全新的AArch64架构，引领了移动计算时代的爆发性增长。在十年后的今天，ARM又再度发布了全新的Armv9。这一次，ARM希望通过大量新计算功能的加入以及安全特性的增强，为ARM在下一个十年的发展奠定基础。
　　安全和计算：Armv9的两大板块
　　一般来说，对底层指令集的改动应该是极为谨慎的，因为这意味着整个行业架构的变化。具体到ARM来说，这会涉及千亿级别的芯片和产品。在之前的Armv8上，ARM引入了全新的AArch64架构，将移动计算扩展至64位，并且还带来了完全不同的执行模式和指令集，包括扩展寄存器、64位的虚拟地址空间等。因此，Armv8的出现带给业界极大震撼。
　　那么，十年后发布的Armv9有什么改进，可以和当年Armv8从32位转换成64位的进步相提并论比呢？在这一点上，ARM宣称Armv9依旧基于AArch64，但是增加了包括安全、AI计算、矢量计算、DSP计算等全新能力。从ARM的官方资料来看，Armv9的改变主要在于计算和安全两个板块。计算方面包含了增强的矢量计算、机器学习能力以及数字信号处理能力等，这部分的提升主要是交由SVE2来实现，同时还包含了相对应的各个计算功能的增强。考虑到这是指令集级别的改变，因此目前还暂时不会有这些增强的部分特别具体的内容，官方资料中只提供了一些功能和应用方面的描述。安全方面增加了包括CCA在内的安全特性，并针对未来ARM所要面向的市场在安全方面可能遇到的问题进行了强化。
　　接下来，本文就先为大家介绍Armv9在计算方面的变化，主要内容为全新的SVE2模块。其余部分，比如涉及到CPU架构改进的内容，目前还不得而知，ARM可能会在未来的产品说明中进一步描述。
　　更强算力：Armv9引入SVE2
　　计算能力方面，Armv9对A I计算、矢量计算和DSP计算进行了大幅度加强，其核心就是第二代可变长度矢量扩展指令集（Scalable VectorExtensions 2，简称“SVE2”）。SVE2在技术和产品的实现上比我们想象的速度更快，因为它是作为N E N O指令集的后续出现的，并且有SVE的经验在前，厂商应该很容易就能将它集成在自己全新的产品中。
　　SVE（第一代可变长度矢量扩展指令集）诞生于2016年，并已进行了实际应用。SVE主要是为富士通A64FX CPU设计的，并且服务于全球排名第一的超算“Fuka gu”（中文为“富岳”）。SVE大大扩展了之前ARM指令集针对矢量数据的并行处理能力，但它的问题在于数据的可变范围相当有限，并且只针对HPC的工作负载进行研发，缺少很多通用性较强的指令集。相比之下，面向民用市场的NENO则覆盖了这些缺少的内容。但NENO的规格和计算能力都不够出色，已经难以满足目前的需求了。
　　在这种情况下，新的SVE2在2019年4月发布。作为SVE2和NENO的超集，SVE2拥有SVE和NENO的所有功能和优点，比如允许在数据集并行中实现更多的功能域，集成了SVE的概念，矢量寄存器和操作基本原理，并且SVE和SVE2都定义了32个可扩展的矢量寄存器（后文还有详述）。现在，芯片开发人员可以根据需求选择合适的矢量长度来进行计算方面的实现，可选的矢量长度范围最小为NENO的128位（这是因为NENO指令集只能处理固定长度为128位的矢量），最长可选2048位，开发人员可以以128位为起始值，以128位为一个单位选择自己需要的矢量处理单元的一次性可处理数据长度，这在很大程度上给了芯片设计人员和软件研发人员不小的自由度。
　　SVE和SVE2的设计理念非常先进。它们允许开发人员只需要通过一次编写和构建软件，就可以在不同的、支持A Arch64的硬件上，使用不同的SV E矢量长度的计算单元来完成相同的计算，当然其中存在效率和速度的差異。这种特性使得开发人员不需要知道当前系统实际设计的矢量长度，并且也不需要他们根据硬件矢量长度来匹配相关软件，这为软件移植带来了相当大的便利。
　　在技术特性方面，SVE和SVE2带来了不少新的技术特性，包括每通道预测（Per-lane predication）、对数据的获取、装载以及分散、存储功能（Gather-load and scatter-store）、矢量化的预测技术（Speculativevectorization）等，上述功能有助于实现数据的矢量化处理和优化循环。同时，SVE2在SVE仅针对HPC和ML优化的基础上，还带来了针对机器学习（UDOT指令）、计算机视觉（TBL和TBX指令）、基带网络（CADD和CMLA指令）、基因组学（BDEP和BEXT指令）以及服务器（MATC H和NMATCH指令）等全新应用场合的指令优化。
　　尤其是为了帮助编译器对上述领域更好的矢量化—SVE2针对大多数编译器使用的整数数字信号处理器（DSP），提供了一个和矢量宽度无关的新N E N O指令集，这扩大了矢量并行处理的适用范围，极大地提高了新架构在上述所有方面的计算效能和计算速度。
　　进一步来看SVE2的结构。SVE2拥有32个可扩展的矢量寄存器（scalable vector registers）、16个可扩展的述语寄存器（predicate registers）、第一故障述语寄存器（F i rstFaultpredicate Register，简称为FFR）以及可扩展矢量系统控制寄存器（scalablevector system control registers）。其中，32个可扩展矢量寄存器正如前文所说，可以在128位到2048位间选择，其中首128位和NENO指令集固定的128位长度共享。具体计算内容方面，可扩展矢量寄存器可以容纳64、32、16和8位元素，支持整数、双精度、单精度和半精度浮点计算，功能相当丰富。所谓述语寄存器，通常用作存储数据运算的位掩码，每个述语寄存器的长度是之前的可扩展矢量寄存器的1/8，共16个述语寄存器的前8个用作加载、存储和运算，后8个用于循环管理额外的述语。此外FFR和可扩展矢量系统控制寄存器主要是用于推测性的存储器访问以及保留供将来使用。　　对现有的处理器使用的NENO指令集而言，SVE2会将其进行复制或者转换，使其更有效率地在SVE2架构下运行。ARM还特别指出，即使处理器内集成了SVE2，依旧可以继续存在NENO。这里并不仅仅是指SVE2可以处理NENO指令集的内容，而是说一个芯片拥有了SVE2的相关单元，也可以同时放置NENO相关单元。这里可能是考虑到启用SVE2后功耗和效率等问题，毕竟N ENO的操作和计算都要更简单一些。总的来说，SV E和SVE2并非只是NENO指令集的简单扩展，它们是针对更好的数据并行性而重新设计的一整套计算方案，当然，SVE和SVE2的硬件逻辑覆盖了NENO的硬件逻辑，因此，支持SVE和SVE2的硬件也必然支持NENO，反之则不一定。
　　加入SVE2后，Armv9在矢量计算上终于拥有了可以和桌面处理器相比拟的功能和实现路径。实际上，纵观A R M之前在指令集上的发展路径可以看出，在计算领域，桌面平台往往会领先移动平台数个身位，移动平台则会在制造工艺或者技术应用相对成熟的时候开始提供类似的功能。比如英特尔在数年前就开始推广SSE指令集，也就是典型的矢量并行计算指令集，其提供了8个SIMD浮点寄存器，可以进行128位浮点计算。此后英特尔又推出了包括AVX、AVX-256、AV X-512在内的指令集，都是希望利用规模化的并行计算，将可以并行化、矢量化处理器的数据导入AVX这类可以高效率执行计算的模块，实现处理器计算能力的大幅度提升，并对当前和未来很长一段时间的热门，诸如深度学习、计算机视觉、科学计算等内容进行加速，大幅度提高处理器效率。这次ARM在Armv9上引入SVE2，所做的也是这个事情。当然，我们并不指望Armv9和相对应的产品拥有类似于桌面产品那样强大的计算能力，但有就是好的。在执行移动计算和一些要求不高、需要并行矢量计算的任务时，Armv9做出的这个改变还是能起到一定的效果。
　　全面强化：Armv9的安全特性改进
　　ARM在Armv9的安全特性方面做了相当多的工作。其中很大一部分原因是考虑到目前行业内安全问题频发，包括英特尔之前“幽灵”和“熔断”这类安全缺陷所导致的连锁反应，以及AMD近期发生的预测存储转发（PSF）安全缺陷等。这些漏洞和相关同级别的旁侧信道攻击都表明，对安全性的根本需求是考虑如何对待安全本身以及如何在处理器层面实现安全。ARM在这里的做法是通过Armv9，重新制作整个安全架构工作方式，这就是新的ARM保密计算架构。
　　目前ARM对Armv9中新的安全架构披露得还不算详细，已有的消息仅仅包括比较高层级、宏观的CCA（Confidential Compute Architecture，保密计算架构）方面的内容，其运行的一些关键性和细节内容，ARM会在今年夏末的发布会上进一步公布。
　　ARM解释了有关CCA工作的内容。从原理上来说，CCA是以软件为核心的，也就是设备上运行的应用必须置于操作系统和管理程序的控制之下。相比传统系统和软件那种权属不清，部分特权软件拥有超越操作系统和管理程序的功能并可能损害操作系统和管理程序而言，CCA将在很大程度上扭转这个问题。
　　为此，CCA引入了一个动态创建的 "领域"新概念。所谓“领域”，可以看成是对操作系统或者管理程序完全不透明的、安全的、容器化的执行环节。管理程序仍然存在，但只负责调度和资源分配，而领域将由一个名为 "领域管理器"的新实体来管理，领域管理器本身并不大，大约只有管理程序1/10的体积。在这里有一个非常特殊的设计，领域内的应用程序可以“验证”一个领域管理器，并确认其是可信的，这在传统的管理程序中是不可能的。ARM并没有深入地介绍到底是什么在领域、操作系统、管理程序之间建立了这种分离。根据推测来看，这个功能比较接近硬件支持的地址空间，这样一来不同的域之间就无法相互影响了。
　　根据ARM解释，使用领域的好处是可以极大地减少设备上运行的某一应用的信任链，这使得操作系统可以非常透明地控制系统内的安全问题，并且这与需要企业使用带有授权软件的专用设备的情况相反，用来监督控制的關键任务应用程序将能够在任何设备上运行，这也大大方便了企业的运行和操作。
　　另一个和安全相关的功能是MTE（Memory Tagging Extensions，内存标记扩展）。这个功能的出现是为了解决目前普遍存在的内存安全问题。比如微软宣称目前每年通过安全更新解决的问题中，70%都是内存安全问题。谷歌Chromium的安全问题，同样有70%和内存安全相关。
　　因此在Armv9上，ARM着重介绍了MTE功能。不过实际上MTE并非Armv9中的功能，而是在之前的Armv8.5中就已经引入，其目的是帮助解决软件中两个最持久的安全问题，即缓冲区溢出（Buffers overflows）和释放后重用（Use-af ter-free）。释放后重用是指当系统使用并释放了一个堆块后，并没有将该指针置为NULL，这会导致该指针处于悬空的状态，同样被释放的内存数据如果被恶意利用的话，可能产生数据泄露等问题。在过去50年中，这两大问题一直伴随着软件的发展，目前也没有找到特别好的根治方法。MTE则是通过分配时标记内存指针，并在使用数据时进行检查来帮助识别这类问题的出现，可能会对整个系统的安全性加强起到一定的作用。
　　面向未来：ARM公布部分未来CPU架构
　　除了展示有关Armv9的内容外，ARM还公布了其所带来的CPU架构和相关性能进步等内容。
　　ARM给出的数据显示，相比2016年推出的Cort ex-A73，在I SO流程的设计IPC层面，全新的Cortex-X1已经将处理器的峰值性能提升了2.5倍。在采用了新的Armv9、代号为“Matterhorn”和“Makal u”的下一代（2021年推出）和下下一代（2022年推出）的新C PU架构上，A R M预计性能增幅会提升至最多30%。值得注意的是，这里的性能增幅仅仅是指IPC方面的内容，并不包括受益于频率和新的工艺所带来的性能增益。平均下来，相比2020年推出的Cortex-X1，新的内核平均每年将带来14%的性能增长幅度。虽然从这个曲线的斜率来看，14%的速度是要略小于之前从Cortex-A72到Cortex-X1的2015年或2016年到2020年间的增长速度的，但是显然高于业内平均水平。　　除了移动设备外，在数据中心市场，ARM在2019年推出了全新的Neoverse架构，目前Neoverse V1拥有ARM旗下最高的单核心性能，面向的是云端、H P C和机器学习用户，另一款Neoverse N2则兼具高单核性能和高效率，面向5G边缘计算、SmartNIC等设备中可以实现非常好的扩展性能。ARM的数据显示，这两款产品相比之前的产品分别带来了2.4倍和2.2倍的性能提升，但是ARM没有给出数据元点，因此不清楚ARM是和哪年的哪一款产品进行了对比。
　　另外，ARM还特别指出，在系统层面需要进一步加强，这样才能更好地发挥出CPU架构的性能。比如根据ARM给出的数据显示，在系统延迟方面之前是150ns，现在则是90ns，平均减少5ns的延迟就可以带来1%的性能提升。与此类似的情况还体现在各个方面，每100MHz频率的提升对应3%的性能提升，每10GB/s内存带宽的增加对应2%的性能提升，以及缓存容量的翻倍对应9%的性能提升等。ARM在这部分可能是想说明目前整个系统层面对CPU的性能优化还远远不够，建议业内应该更注重系统层级的优化，针对延迟、频率、内存带宽和缓存优秀的设计可能会带来比拟CPU架构升级的性能优势，这是非常值得关注的一个点。
　　在对未来的展望上，ARM依旧将CPU视为未来通用性最好的计算模块，其余的加速模块包括GPU等虽然正在快速发展，但是在很多情况下这些加速模块在灵活性和易用性上不足，包括可编程性、安全特性、在任何设备上部署的能力以及经过验证的正确工作的能力等。ARM还提到，目前计算设备的生态系统的运行方式极其分散，不仅设备类型不同，设备厂商和操作系统之间也存在差异。而Armv9新加入的SVE2和矩阵乘法可以极大地简化软件生态系统，可以采用更统一的方法并可在任何设备上运行，简化系统的运行架构并提高效率。
　　在GPU方面ARM也给出了一些消息。值得注意的是，ARM宣称M aliGPU的未来将可能支持VRS、光线追踪等目前已经在桌面平台广泛应用的新技术。这一点是非常令人惊讶的，这意味着移动GPU在发展路线上也深受桌面GPU的影响，未来我们会看到运行在移动G P U上的光线追踪游戏（云游戏是否会成为其最大竞争对手？）。
　　最后我们来总结一下有关Armv9指令集的发布。总的来看，Armv9指令集看起来更像是一个在计算和安全方面极大加强的Armv8指令集的擴展版本，其中有关计算的部分也就是SV E2带来了对矢量计算根本性的改变，安全部分的设计（ARM还将继续公布详细内容）也非常令人感兴趣。无论是计算还是安全，都将影响到未来十年ARM的发展，也会影响到我们每一个人手中的移动设备。
　　在具体的产品上，Neoverse N2可能会采用新的Armv9指令集，其他面向消费者的新架构正在准备中，其主要目标应该是接替Cor tex-X1和Cortex-A78，乐观估计的话，预计2022年消费者就可以在市场中看到这类产品了。

其他文献

华硕ProArt PA279CV专业显示器体验

华硕面向专业电竞市场推出了高端子品牌ROG玩家国度，产品受到越来越多电竞玩家的认可。针对创作设计市场，华硕也推出了另外一个高端子品牌：ProArt创艺国度，其产品涵盖主板、显示器、整机等产品线。在今年6月份的时候，MC就评测过来自华硕ProArt创艺国度的专业显示器-PA248QV，不到两干元的价格拥有超高性价比。近期，华硕又推出了一款拥有4K超高清分辨率的专业显示器-PA279CV，它的定位比P

期刊

色彩华硕显示器专业接口的是

体验两款真无线耳机

漫步者TWS NB2　　TWS NB2来自知名音频品牌漫步者。我在漫步者官网上大概数了一下，其推出过的真无线耳机已经达到十余款，算得上是在这一细分市场上深耕的品牌之一了。从售价来看，TWS NB2在其中定位相对较高，那么它的特点体现在什么地方呢？　　硬朗设计风格充电盒质感佳　　很少有真无线耳机会像TWS NB2这样，给我的第一印象是“硬朗”。耳柄应用了大量棱角分明的直线条，虽然过渡处的圆润处理不会

期刊

降噪模式耳机漫步者低频无线耳机

超频、灯效、PCIe40、显卡加速一个不少七彩虹CVN Z590M GAMING FROZEN主板

随着英特尔第十一代酷睿处理器在3月30日正式上市，板卡厂商七彩虹也在第一时间推出了多款为其量身打造的500系主板，如这款CVNZ590MGAMINGFROZEN主板。与其他厂商以黑色为主色调的500系主板不同，这款七彩虹500系主板从PCB到散热片都以纯白作为主色，可以很好地搭配白色内存、显卡、机箱等配件，让用户能轻松地组建一台在视觉上与众不同的白色主机。　　在扩展能力上，该主板支持最新的PCIe

期刊

主板超频处理器这款接口插槽

质感轻旗舰一加9R

2021年或许是一加手机变化最大的一年，从携手哈苏到搭载Color OS，一加手机已经不满足以前那个“小而美”的品牌，而是想为更多的消费者带来旗舰手机体验。在一加9系列手机发售仅时隔一个月，一加又推出了9R这款主打“性能品质旗舰”的新款手机。那么它的表现如何呢？消费者是否能花更少的钱享受到核心的旗舰体验呢？我们一起来看看。　　蓝屿新配色外观不打折　　摸惯了“手感真爽”的AG磨砂玻璃，再将一加9R握

期刊

三星手机游戏滤镜采用了手感

遁入虚无

他的邪恶纯粹到了天真无邪的程度，真心实意地把药丸像巧克力一样递到你的口中，然后站在佛祖的旁边，看着你被熔化掉，死掉，最后再还你一个来生，这个世界上活着的导演里面，除了奥地利的Michael Haneke，最毒的就是他了……　　　　我和好朋友T像冰渣里的两条雪棍，被夜幕后不知名的扯线布偶达人默默地操作着，在伦敦市中心繁华混乱的westend街区，机械地迈动着脚步。半小时前，我们刚刚经历了一场本年度最

期刊

妹妹毒品让你东京的人是一个

国产芯片“全家桶” 紫光展锐多款新品抢先看

作为国内半导体业界备受关注的厂商，紫光展锐近年来新品不断。2020年底，紫光展锐在新品发布会上一口气推出了五款产品，涵盖了智能汽车、智能设备、5G射频等诸多应用场合。那么，这些新品都有那些特点呢？应用场合分别是哪里呢？今天，我们一起来了解相关内容。　　提到紫光展锐，它可以说是国内首屈一指的Fabless企业（无工厂芯片供应商），其现有产品主要集中在互联互通、移动计算等领域。《微型计算机》在之前曾

期刊

紫光网络设备芯片切片的是

下潜，接近脆弱的深蓝

如果每一个潜水者都有一个位于海洋的籍贯，那么，他们不会忘记诗巴丹——那处600米的悬崖之下。　　　　相对于陆地而言，诗巴丹是一处超现实的所在。它是一场不曾发生却持续良久的氮醉(当压力增加时，空气溶入血液的量变多，相对氮残留在体内的量就增加，症状跟喝醉酒差不多)，让每个人在上岸之后都产生对自己记忆的不信任感。作为世界五大著名潜水点之一，诗巴丹嶙峋的海底地貌让它有了先天的优势。诗巴丹是世界上能看到最多

期刊

珊瑚马来西亚度假村风暴海底海域

专业领域的高效办公利器　戴尔Precision 5750移动工作站体验

移动工作站是笔记本行业的一个重要领域，由于其主要面向的是影视制作、精密零件制图、地质勘探和工程制图等专业领域人群，因此对于便携性和性能都有极高要求。对于需要它的专业人士人来说，它就是随时随地办公，提高工作效率的利器。为了满足这些专业人士的需求，戴尔正式推出了全新的Precision 5750移动工作站。它的表现到底如何呢？　　17英寸大屏兼具四面窄边框设计　　戴尔Precision 5750在外观

期刊

戴尔三星的是接口屏幕用户

智能化热潮席卷重庆　2019智博会现场采风

8月26日～8月29日，以“智能化：为经济赋能、为生活添彩”为主题的2019中国国际智能产业博览会（简称“智博会”）在重庆悦来国际博览中心开幕。本届智博会有近60个国家和地区相关代表参会，国际博览中心共设14个展馆，汇集了来自28个国家和地区的共843家企业参展，从规模上来说远超上一届智博会。　　作为一场科技行业的盛会，国内外的最新智能科技和产品都齐聚在这里。本届智博会所掀起的一股智能化热潮给原本

期刊

智能智慧重庆垃圾解决方案技术

换“芯”升级赛睿Rival 710游戏鼠标

在Rival系列鼠标正式更改命名方式之后，作为当时的旗舰级产品，Rival 700游戏鼠标凭借着独特的热插拔光学引擎、模块化设计以及顶尖性能，一经推出便获得了许多玩家的青睐。作为时隔1年之久的7系改款产品，赛睿Rival 710游戏鼠标能否再次让你心动呢？　　新年得有新气象，对于赛睿而言，最大的改变除了寒冰系列游戏耳机完成了换代之外，便是Rival系列产品的变化了。在这之中非常值得关注的，无疑是赛

期刊

鼠标游戏这款产品光学这一

面向未来的高性能移动计算

与本文相关的学术论文