ResNet卷积网络在多核向量处理器上的设计与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:gaoliksk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
卷积神经网络(Convolutional Neural Networks,CNN)近年来在计算机视觉、自然语言处理等领域大放异彩,是深度学习中的代表算法。Res Net卷积网络模型是首个对图像的分辨能力超过人类的CNN算法,且深度首次达到了152层。但CNN算法通常都包含着大量的乘加计算。训练和推理过程都难以在传统的中央处理器中快速运算得到结果。所以研究人员提出了在各种硬件平台上对CNN进行加速的方案。X-DSP是国防科技大学微电子所自主研发的一款面向高性能计算的多核向量处理器,采用了11发射的超长指令集(Very Long Instruction Word,VLIW)架构,内部具有十分丰富的向量乘加计算单元(Multiply Accumulate,MAC),十分适合对卷积神经网络进行加速。所以我们非常有必要针对其特定体系结构设计Res Net卷积网络模型的实现方案。本文深入的分析了卷积、池化和全连接各模块的算法内部计算特点和多核向量处理器的体系结构特点,提出了一种将三维图像和卷积核数据转换为二维矩阵,然后按行计算的矩阵向量化实现方案,其具体的实现方案是:(1)卷积计算向量化:将图像数据以通道数为列,每个通道的图像数据为行展开为二维矩阵,我们提出每次将一个卷积窗口所有通道的数据作为子块传入SRAM中;将卷积核数据以卷积核个数为列,每个卷积核数据为行展开为二维矩阵,然后分为子块传入AM中。每次计算从SRAM中读取一个标量图像数据,然后广播成一个具有相同值的向量,从AM中读取一个向量卷积核数据进行乘累加计算,即一个图像数据可以和同时多个卷积核数据进行计算。(2)池化计算向量化:将图像数据以通道数为列,每个通道的图像数据为行展开为二维矩阵,然后分为子块传入AM中。每次计算从AM中按行读取两个图像向量进行比较,取较大值再与下一个向量图像数据比较,即可以在一拍中进行多个通道的图像数据比较。(3)全连接计算向量化:全连接层内核计算逻辑与卷积计算相同,采用和卷积计算一样的向量化方法。而如何对图像数据和卷积核数据分块是实现的一个难点,本文提出在卷积层内每次传一个卷积窗口所有通道的数据进入SRAM中,卷积核数据的分块方案根据体系结构特点确定,X-DSP一个单核的VPE数量是16个,一个VPE具有3个MAC单元,可以同时进行48个乘加计算,所以卷积核数据子块以48为列,行数以AM容量确定。在对数据传输时采用“乒乓”式的两级双缓冲的DMA数据搬移方式,平滑各级存储之前的等待开销。设计方案充分开发了多核向量处理器的多核间的并行性,单核内各VPE间的向量SIMD并行性,一个VPE内的多个FMAC计算单元并行性,并在用汇编语言实现时采取了填充延迟槽、软件流水、指令级优化等优化技术。最终在X-DSP硬件仿真器上进行测试,单精度的卷积单核核心计算性能可以达到189.96GFLOPS,非常接近峰值性能192 GFLOPS,效率高达98.94%。
其他文献
水电行业的发展与国计民生密切相关。近年来我国电力科学不断向前发展,水电厂基础自动化设施技术日趋完善。在日趋全球化的当今时代,水电厂科技文本的翻译活动在国际科技交流领域的比例不断加大。但是,围绕科技文本翻译的研究视角多聚焦在科技文本汉译方面,对科技文本英译的关注有一定缺失。因此,本报告选取《水电厂自动化元件(装置)及其系统运行维护与检修试验规程》这一科技文本作为翻译实践,具有一定的研究价值。在词汇和
毫米波通信技术凭借其可以提供千兆比特每秒传输速率的优势已成为当下通信系统的关键技术之一,与大规模多输入多输出(Multiple-input Multiple-output,MIMO)技术和模数混合预
运动目标检测技术在视频监控场景中有广泛的应用,是后续更高层次的视觉分析任务的基础,而在运动目标检测技术中研究最深入的是背景差分法。背景差分是许多计算机视觉应用中的一个关键步骤,因为它能在没有任何场景先验知识的情况下,检测视频流中发生变化的前景目标。背景差分法有近三十年的发展历程,目前已经逐步发展成一个新的研究领域。在这一新兴领域,研究人员不断将其他学科的研究方法、理论成果、创新技术引入进来,已经取
随着信息技术的快速发展,数据量成指数级爆发式增长,数据存储面临巨大的挑战,深刻影响着每个有存储需求和数据服务需求的企业及个人。云存储为上层服务提供重要支持的同时,可以有效存储和管理海量数据,使得各种类型的云存储平台不断涌现。然而这些存储通常以RESTfulAPI的形式对外提供存储服务,普通用户使用繁琐,云存储服务商提供数据存储的安全性值得商榷,存在主动或恶意泄露用户数据的隐患,本文提出基于Open
随着经济的快速发展,科技的不断进步,环境污染与能源枯竭问题日益严重。为了解决这个问题,开发新型无污染的绿色能源迫在眉睫。太阳能作为一种来源广泛、绿色环保的能源受到越来越多的关注。作为可以有效的把太阳能转换成电能的装置—有机太阳能电池由于拥有质量比较轻、成本相对较低、并且可以进行大面积制备等诸多优点,而得到了广泛的应用与发展。给体材料与受体材料共混组成了有机太阳能电池的活性层。在早期,富勒烯是应用最
苏仁山作为画家,其书法艺术往往不被重视,而观其画作能发现大量的题跋书法,书体丰富且风格各异。对其绘画题跋书法的师承、审美取向以及所体现出的书学观却缺乏深入研究。本文以苏仁山绘画题跋书法为研究对象,重点从三个方面进行论述。首先,在发现其书法除了家学渊源深厚外,多种书体也有对古人的师法,结合其所处环境、地域书风以及具体的风格体现,对其不同书体的取法予以确定。其次,发现苏仁山绘画题跋书法在不同阶段所体现
职业中学教育是中等职业教育的重要组成部分,然而,中等职业教育现状是发展相对较为缓慢。近十年来由于中职学校生源状况和学生素质逐年下滑,本市中职学校文化课教学状态普遍
股东会是公司最高权力机关,其通过会议召集和表决程序这唯一合法形式将股东意思上升为公司整体意志。作为公司意志体现的股东会决议,不仅对股东以及其他利益相关人产生影响,
巴慰祖是徽派篆刻“歙四家”之一,其篆刻影响较广,对清中期徽派篆刻的延续具有重大意义。目前,学界对巴慰祖篆刻研究较少,部分研究观点基于有限的资料有误。因此,本文以巴慰祖相关印谱为主,按时间顺序分五个部分对其篆刻艺术进行研究。第一部分整理巴慰祖相关印谱,得出巴慰祖《四香堂摹印》摹刻底本“墨渡卷子”为《印薮》,探析《百寿图印谱》中作品创作的时间;第二部分以《百寿图印谱》中作品分析巴慰祖篆刻艺术酝酿期篆刻
图像融合技术能在原图像不能有效展现信息的情况下,实现多源图像优势互补,使融合图像更好地呈现出有用信息,因此受到了人们的广泛关注。迄今为止,图像融合算法多种多样,其中基于多尺度变换的融合方法,充分考虑到图像本质属性之间的差异,将待融合图像进行多尺度、多方向分解,能获得比传统像素级融合更好的效果,是目前异质遥感图像融合领域的研究热点。合成孔径雷达(Synthetic Aperture Radar,SA