【摘 要】
:
近年来,继理论科学和实验科学之后,高性能计算成为人类科学研究的第三大范式。浮点矩阵运算作为高性能嵌入式系统中的基础运算也备受关注,因而针对浮点矩阵运算的硬件加速器的设计实现是当代高新技术领域的研究热点和难点。针对运算、访存和数据密集型矩阵运算,设计专用的ASIC芯片以及对大型矩阵运算进行细颗粒度的运算拆分提高资源的利用率是实现大规模矩阵运算加速的有效方案之一。论文在深入研究了32位RISC通用主处
论文部分内容阅读
近年来,继理论科学和实验科学之后,高性能计算成为人类科学研究的第三大范式。浮点矩阵运算作为高性能嵌入式系统中的基础运算也备受关注,因而针对浮点矩阵运算的硬件加速器的设计实现是当代高新技术领域的研究热点和难点。针对运算、访存和数据密集型矩阵运算,设计专用的ASIC芯片以及对大型矩阵运算进行细颗粒度的运算拆分提高资源的利用率是实现大规模矩阵运算加速的有效方案之一。论文在深入研究了32位RISC通用主处理器及通用浮点运算加速器的基础上,设计实现了基于RISC+SIMD架构的向量浮点运算加速器,能够实现满足IEEE-754标准的单/双精度浮点矩阵加法、减法、乘法、负乘、乘加、乘减、负乘加和负乘减的运算。论文的主要研究工作及成果包含以下几个方面:1.设计实现了基于RISC+SIMD架构的向量浮点运算加速器。其内部设计了16个FMAC并发单元和48个64位寄存器,FMAC结构排布参考二维矩阵式脉动阵列结构并进行了结构优化,在保留原系统功耗低、响应快等特点的基础上,解决了单一的通用浮点运算加速器在取数据和执行并行度上的瓶颈,向量浮点运算加速器有效的解决了数据密集型运算所面临的“算力”问题。2.专门开辟了向量浮点运算加速器与主处理器片内SRAM的高位宽快捷访问通道,数据直接从片内SRAM取;同时向量浮点运算加速器还设计了AHB的master接口可以访问总线上的存储数据,只有少量的控制指令走协处理器通道,有效解决了数据密集型运算所面临的“数据吞吐效率”问题。3.根据向量浮点运算加速器的硬件结构,借鉴Goto-BLAS函数库的思想,设计并优化了通用GEMM汇编函数库,能够实现对任意维度矩阵的运算拆分。测试结果显示向量浮点运算加速器采用汇编函数库实现浮点矩阵运算的性能是采用C语言函数库性能的1044倍;通用浮点运算加速器采用汇编函数库实现浮点矩阵运算的性能是采用C语言函数库性能的210倍。4.论文对单/双精度浮点矩阵加/减法运算、转置运算以及乘法运算进行了详细的性能测试对比分析,结果显示向量浮点运算加速器的性能分别是通用浮点运算加速器性能的3.13.5倍、2.52.9倍以及6.17.6倍数,实现了良好的浮点矩阵运算加速。5.最后,对论文设计的向量浮点运算加速器使用SMIC40nm CMOS工艺库进行综合,其综合的面积为1.1100863088mm2,工作频率达到600MHz,总功耗为719.3m W,其浮点矩阵运算性能能够达到2000MFLOPS以上。
其他文献
近年来,网约车的发展逐渐改变了人们日常的出行方式。伴随着规模的发展,也出现了各种各样关于司乘体验方面的问题,如何提升用户体验是网约车公司当前阶段面临的主要矛盾。其中,取消订单对司机和乘客双方的体验影响都较为严重,本文利用数据分析和机器学习算法对这一现象进行研究。本文共使用三种Gradient Boosting机器学习算法:XGBoost,Light GBM和Catboost。这三种算法是如今在各大
目的:本研究主要目的是滚针配合强力益气方治疗重症肌无力的临床疗效及炎症因子在治疗前后的变化。方法:本研究将符合中医诊断“脾气虚证”和西医诊断“重症肌无力Ⅱb型”的7
电气化铁路具有安全系数高、舒适度高、运输能力大、耗时少等特点,是解决交通不便的有效手段。但随着我国电气化铁路的飞速发展,谐波、负序等电能质量问题也受到广泛关注,同时牵引供电系统中越来越多再生制动能量无法有效利用的问题也随之出现。现在牵引变电站中根据两部制电价进行收费,再生制动能量无法有效利用的问题会造成两部制电价所收取费用较高,经济影响较大。铁路功率调节器的投入使得电能质量问题得到有效的解决,从而
改革开放40年以来,飞速发展的中国吸引愈来愈多在海外留学或工作的人才回国任职,并逐渐构成我国企业高级管理人员的重要组成部分。截至2017年,我国近2/3的A股上市公司雇佣了海归高管,成为公司治理团队中不可忽视的重要力量。海外经历背景高管对企业经营绩效的影响机制和影响程度如何,是亟待回答的问题。本文以A股2008-2017年上市企业高管海外经历数据为样本,采用温忠麟等(2004)的中介效用检验流程进
随着步入21世纪第三个十年,人工智能逐渐成为了智能时代具有代表性的产物。自1956年夏季首次提出“人工智能”这一专业术语以来,不仅标志着“人工智能”这一门新兴的学科的诞生,也标志着开启了新的一个时代。目前,人工智能并未能真正达到具有自己“灵智”的地步,但依托于大数据集合,通过程序的提前设置,能够做到“智能”的程度,如IBM公司所创造的“深蓝”或是谷歌(Google)旗下DeepMind公司创造的“
电-多相臭氧催化工艺(E-catazone)是本课题组前期开发的一种新型高级氧化工艺,该工艺将阳极、曝气装置和臭氧催化剂(TiO2纳米花(TiO2-NF)巧妙地结合在一起,构成兼备电催化、臭氧催化、臭氧曝气功能的膜曝气电极(简称TiO2-NF电极),实现了电化学和多相臭氧催化的高效协同。前期研究表明,E-catazone工艺对难降解有机污染物如药物布洛芬的降解速率上是单一电化学氧化的71倍,是单独
目的:了解不同类型肛瘘的特征及解剖结构差异,分析患者肛瘘复发的危险因素,拟从临床观察中探寻不同肛瘘患者的首选治疗方案,为临床医生选择合适的诊疗方案提供一定的方向。方法:回顾分析2016年8月至2018年6月肛漏住院患者的肛周核磁共振图像及临床资料,探讨不同患者肛瘘特征及解剖结构差异,用Cox回归分析影响肛瘘复发的危险因素。结果:本研究共纳入湿热下注型肛漏病例421例,男性378例,女性43例,其中
近年来,随着汽车内燃机缸内直喷、涡流增压等提高燃烧效率的技术广泛应用,要求制造排气门材料有更好的耐燃气腐蚀和抗氧化性能以及在高温下有更高的强度。随着未来汽车排放要
经过十余年的发展,我国以高铁为核心的快速铁路客运网络逐渐形成,伴随着大规模高铁建设的是我国“建设创新型国家”战略的推进。在我国高铁与科技创新快速发展的现实背景下,高铁对城市创新能力的影响是党和政府关心的热点话题,探讨其能否促进城市创新能力搭乘高铁速度,助力我国创新型国家建设,不仅关乎我国大规模高铁投资建设的社会经济效应评估,而且深刻影响着创新驱动背景下经济结构的转型升级。那么高铁对城市创新能力是否
轨道交通已成为我国重要的交通运输方式,我国目前是全球运营速度最快、里程最长、在建高速铁路规模最大的国家。由于线路会因列车行驶和自然条件等因素产生几何形变,并威胁到列车的安全运行,所以对轨道几何状态的检测和预警是一项至关重要的任务。目前,由于综合检测车成本高、配置少,运行线路检测周期长达15天,维修间隔期内轨道不平顺超限将严重威胁行车安全,因此有必要加强轨道运营状态监测。本文重点研究了基于深度学习和