基于横向脉动阵列的RNN前向传播硬件加速实现

来源 :南京大学 | 被引量 : 0次 | 上传用户:dk_wow
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着神经网络的广泛应用,循环神经网络(Recurrent Neural Network,RNN)在自然语言处理上的卓越表现令人瞩目,但随之而来的计算复杂度和庞大数据量的存储要求,给实际的应用带来了较大的挑战。同时,虽然GPU、FPGA、ASIC等硬件技术的快速发展,大幅度提升了神经网络的运算速度,但现有的神经网络硬件加速器以卷积神经网络居多,循环神经网络加速器研究较少,并且已有的循环神经网络加速器灵活度差,无法适应各种应用场景。此外,因循环神经网络引入历史时间信息,伴随着复杂度的提高,过多的权重数据导致现有的循环神经网络加速器面临数据加载时间过长,运算效率不高、硬件资源利用率较低等问题。基于以上问题,本文提出了一种基于横向脉动阵列的循环神经网络前向传播模型的硬件加速实现。该硬件加速实现的创新点在于:1.将网络隐藏层与输出层分割,通过软件灵活配置,可支持各种规模的循环神经网络计算;2.采用乒乓操作技术,隐藏数据传输时间,减少权重数据加载时间,从而降低了总延时;3.存储结构中引入簇内存储模块的设计,降低了历史节点数据加载时间,有效控制循环神经网络引入历史时间信息带来的计算复杂度。基于上述创新点,该加速器可实现运算时间占比超75%,硬件资源利用率超95%。在采用CMOS 14nm工艺库进行综合、时钟频率为1GHz的条件下,本文的硬件加速实现可达2.08TOPS的峰值吞吐率并具有9.88 TOPS/W的能效。将现有的同类型工作的峰值吞吐率归一化,本文的硬件加速实现提升了12~45倍。
其他文献
疼痛是疾病最常见的症状之一,因其带来的不愉快体验严重影响患者生活质量和感官情绪,目前临床上广泛使用的镇痛类药物虽然疗效确切,但是其副作用不容忽视,因此有关研究低副作用的有效镇痛药物已成为医药界热点话题。中药镇痛在临床中的使用历史悠久,传统中药材威灵仙就是一味镇痛良药,随着现代提取工艺的进步,从威灵仙中相继提取出多种抗炎镇痛的化学活性成分,各种有效成分的镇痛机制也不断被阐明,针对骨骼、肌肉、神经和内
作为量子信息与量子技术中的重要资源,量子相干性和纠缠一直受到广泛关注。在开放系统中,量子态的相干性和纠缠会由于退相干的存在而无法维持较长寿命。在现有实验技术下,减小量子门的操作时间是解决此问题的常用方法之一。寻找量子门实现的最短时间或系统完成特定演化所需最短时间的问题通常被称之为量子速度极限问题。量子速度极限不仅是量子信息理论中的一个课题,也是量子力学的一个基本问题,其旨在研究任意系统中初态按照特
目的:探讨在标准静脉注射免疫球蛋白治疗的基础上,单用阿司匹林对比阿司匹林联合双嘧达莫治疗儿童川崎病的疗效。方法:回顾性纳入2017年1月—2019年12月于深圳市妇幼保健院就诊的120例川崎病患儿,根据患儿抗血小板治疗方案分为阿司匹林组(51例)和阿司匹林联合双嘧达莫组(69例)。采用倾向性评分匹配,分为有放回和无放回两种方法校正基线特征后,分析不同抗血小板方案是否影响患儿预后。结果:未校正原始基
在自然界中,植物通过光合作用分解水生成氧气并利用释放出的质子还原二氧化碳生成碳水化合物。为了构建人工光合系统,越来越多的科学家致力于合成具有类似生物功能的过渡金属配合物用于实现水氧化催化。随着大量水氧化催化剂被合成,以及现代实验技术和量子化学的快速发展,人们可以深入理解各个催化剂的反应机理。本论文通过理论计算研究了一个基于N5配体的单核Ni配合物Ni-PY5催化水氧化反应机理,揭示它在电催化条件下
目的:随着肾脏移植技术的成熟完善和免疫抑制剂的不断发展,越来越多的尿毒症患者选择肾脏移植来提高生活质量。但其中一部分患者因既往移植、输血和妊娠等原因,体内出现抗人类白细胞抗原(HLA)抗体。这种HLA预致敏状态不仅使移植配型成功率大大下降,更使移植后发生急性排斥反应的风险显著增高。目前国内外尚无特效的脱敏方法。本研究旨在探索安全有效的处理方案来应对移植前预存的HLA供者特异性抗体(DSA),以缩短
随着社会对工业遗产保护意义和价值认识的提高,以及中国城市发展模式由增量向存量型发展的转变,城市中心区范围内一度遭受闲置的存量工业用地获得复兴的可能。在工业遗产的更新设计中,游览路线设计作为设计的重要的环节之一,不仅可以创造更具场所感的步行体验,而且能够对工业文化的传承起到不可忽视的作用。本文通过对发达国家经典工业遗产改造项目的实地考察和文献资料研究,从规划和建筑两个层面对工业遗产改造中游览路线设计
燃烧室机匣是航空发动机的重要组成部分,多为高温合金材料,且其广泛采用薄壁类结构。薄壁件多出现刚性差、材料加工困难、加工变形严重等问题,制约发动机的生产制造。本研究基于有限元仿真,对薄壁件机匣车削加工中的切削力和加工变形等进行研究,并对加工工艺参数进行分析和优选,对实际生产起着指导意义。对机匣实际车削加工工况下的GH4169材料进行切削力仿真,并分析不同工艺参数对切削力的影响规律。本文的研究对象为某
基于液态金属的可拉伸电子器件制作工艺在近几年已经得到充分发展。为更充分地展现可拉伸电子的潜力与优势,高集成度、高柔性、高顺从性一直是其发展的方向。掩模沉积技术是一种具有工业化潜力的低成本并行工艺技术,具有较好的商业价值。基于此技术的液态金属沉积技术已经有了充分的发展,然而仍然面临诸多挑战。当其集成度要求较高,需要达到数十微米级别的图案分辨率时,因为液态金属本身的高表面张力和雾化过程的随机性、混乱性
随着传统制造业的改造升级,机器人在工业生产中得到了广泛的应用,其中抓取技术的研究是当今机器人领域的研究热点。为了提高机器人在实际抓取任务中的灵活性,本文以抓取规划为研究目标,搭建了一个通用抓取框架,用于生成高质量的、无碰撞的、可达的抓取集排名列表,使机器人在复杂环境下也能实现高效、稳定的抓取操作。本文的主要研究工作如下:(1)提出了一种基于粒子群与模拟退火相结合的抓取规划算法。该算法选用力封闭作为
灌注型植生卷材技术是一种兼顾高效防护与有效绿化的新型柔性生态护坡技术。可应用于公路、河道等土质甚至岩质边坡的大范围防护与绿化。本文针对砒砂岩特殊的岩性特征,通过在坡面上铺设锚固固定好的植生卷材,然后将种子和特殊资材通过专用机械高压灌注到植生卷材内,从而使边坡表面形成稳定且长期的植物生长基础层,达到改良边坡生态环境的目的,逐步实现边坡防护与景观效益的和谐统一。围绕砒砂岩生态护坡技术,本文主要开展了以