高性能计算机的系统控制器技术研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:meirumen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前以机群体系结构为代表的高性能计算机在向千万亿次发展时面临着若干问题,功耗、管理和可靠性限制了大规模扩展,以峰值计算能力衡量的高性能并不等同于高效能.随着制造工艺的发展,芯片内部晶体管数目已突破十亿,微处理器向多核发展.为了充分地发挥多核处理器的并行能力,解决高性能计算机发展面临的问题,中科院计算所提出了超并行体系结构(Hyper Parallel Processing,简称HPP). 高性能计算机的系统控制器的设计技术取决于其体系结构和编程模型,主要包括四个功能:一是提供节点内的处理器联接,二是提供节点间互联的支持,三是为编程模型提供通信支持,四是为编程模型提供同步支持.为了实现这些功能,不同体系结构和编程模型下的高性能计算机系统控制器采用了不同的关键技术,本文对此进行了总结. 面向IIPP体系结构的系统控制器主要设计思想包括: 1、由于HPP体系结构采用多核处理器和三层并行体系结构,系统控制器必须实现与多层互联网络联接的多层互联网络接口,支持多通道核对核通信.互联网络接口被集成在系统控制器内部,支持两级互联、三套复用的互联网络. 2、由于HPP体系结构支持全局地址空间的编程模型,系统控制器提供了全局地址空间和同步的支持.系统控制器在节点内共享内存,并内置可直接寻址的硬件锁实现共享内存的同步;在节点间支持全局地址空间,采用硬件同步网实现全局同步网络;系统控制器还提供了Cache一致性的解决方案以支持全局地址空间. 3、由于HPP体系结构支持消息传递的编程模型,系统控制器内部总线协议支持可变长包传输、按字节对齐、顺序传输并保证通信的可靠性,提供了对内存零拷贝、半用户级通信、集合通信和单边通信等通信功能的支持. 4、系统控制器为通信软件提供的接口包括远程写、远程读、远程MSG操作、NAP消息传输、基于通道的NAP消息传输以及Fence功能. 结合系统控制器主要应用于高性能计算的特点,为了解决MPI长消息通信给系统控制器带来的阻塞问题,提出并研究了一种基于重传的流控机制.其设计思想是采用分布式寄存器实现流控,如果某目的端口的缓冲区满则放弃源端口虚通道长消息请求,延迟若干固定周期后重新尝试,该流控机制能够在不明显增加延迟的前提下提高物理信道的利用率.实验表明与传统的持续等待机制比较,在通道内外带宽比为7/4,缓冲区大小为2KB条件下,64KB消息采用等待49周期的重传机制,延迟增加3‰.,但物理通道利用率从58.5﹪提高到97.6﹪.研究表明基于重传的流控机制适用于长消息、带宽不平衡的通道以及深度有限的缓冲区. 为了构建曙光5000千万亿次高性能计算机,本文具体实现一种面向HPP体系结构的系统控制器-基于龙芯2E处理器的HPP系统控制器.该HPP系统控制器的实现技术包括交叉开关、内部寄存器、处理器接口、外设控制器、互联网络接口、内存控制器.该系统控制器在曙光5000A的原型系统中得到应用,测试结果为FPGA实现的频率可达到80MHz,连续传输256B数据延迟为650ns,带宽达到512MB/s,如果采用ASIC技术将频率提高4倍,延迟将减小到162.5ns,带宽同时提高到2GB/s. 为了给目前正在实现中的系统控制器硬件方案提供指导,给曙光5000通信软件和操作系统提供早期开发调试平台,给HPP体系结构研究提供工具,设计了HPP系统控制器模拟器,它是HPP系统模拟器的组成部分.HPP系统控制器模拟器实现了处理器HT接口、交叉开关、互联网络接口、外设接口和寄存器的模拟,HPP系统控制器模拟器的关键技术包括模拟粒度、同步方法、模块接口、模块通信方式、内外部总线模拟和具有阻塞状态的缓冲区.
其他文献
随着保险精算在寿险事业中的作用越来越大,保险精算的信息化也逐步提上日程,作为我国第一个精算科研机构,中国精算研究院积极推动保险精算的信息化,对精算信息智能交换系统项
学位
随着信息技术在各个行业越来越广泛的应用,如果企业要在市场竞争中立于不败之地,就必须更有效的利用业务数据及时对市场变化做出响应。其重要性是毋庸置疑的,但我们在欣喜的
随着计算机网络技术的飞速发展,办公自动化和企业信息化的不断普及,人们开始意识到数据的本地化存储虽然具有存取性能的优势,但是无法有效克服硬件故障、地震、断电等对数据造成
大港油田天然气信息的管理非常复杂,它涉及到管线及其附属站库的运行状况、维护状况、安全状况等方方面面的内容。随着油田生产的发展,天然气管线长度大大增加,站库也相应增
卫星凭借其独特的空间位置优势,因其具有能够提供大量对地观测信息的特点,被用于航天观测通信。随着各国政治经济战略的调整、通信广播卫星技术、计算机技术和电子技术的迅猛发
访问控制是一种重要的信息安全支撑技术,提供对资源的机密性和完整性保护。基于属性的访问控制 ABAC)是一种新兴的访问控制技术,基于用户、资源和环境的安全属性进行授权,具有细
随着计算机互联网的迅速发展,网络的安全问题越来越受到人们的重视,传统的加密和防火墙技术已不能满足需求,入侵检测技术由此产生。虽然入侵检测系统(IDS)经过了20多年的发展,但
在基于互联网的新数字媒体环境下,越来越多的视频内容在互联网上进行传递。然而,Internet由于其自身设计和构造的特点,并不具有服务质量(QoS)的保障,时延和丢包率等也是随时间动
电化学发光(electrochemiluminescence,ECL),又称为电致发光,是化学发光与电化学方法相互结合的产物,是指通过电化学方法产生一些特殊的物质,然后这些电生物质之间或电生物质与其它物质之间进一步反应而产生的一种发光现象。目前,电致发光分析技术在分析化学、药物分析、生命科学和临床诊断(免疫分析,核酸分析)中得到了迅速地发展,其中电致发光免疫分析技术在临床诊断中已得到实际应用。另外
针对大量云计算应用具有高吞吐量的需求和数据中心网络流量具有局部性的特点,很多公司提出了具有能效高、体积小和计算密度高等优点的高密度服务器方案。而随着高密度服务器在