多核向量处理器上VGG卷积网络的设计与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:bhf0520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能和机器学习的迅猛发展,卷积神经网络作为深度学习的代表算法可以轻松实现图像识别和分类任务,被认为是目前最有效的图像处理方法,在自然语言处理、计算机视觉等领域得到了广泛的应用。随着图像分类中识别精度要求的提高,研究人员提出的卷积神经网络模型结构越来越复杂,参数量和计算量迅速增长,卷积神经网络对处理器的计算性能和数据存储带宽要求也随之不断提高,传统的处理器已经难以满足其要求,促使处理器的架构朝着多核、众核、异构GPU、嵌入式芯片等方向发展,根据处理器体系结构特点加速卷积神经网络的计算成为当前业界的研究热点。本文基于国内外卷积神经网络和相关的处理器发展现状系统的对比分析了多种加速器的优劣势,探讨了影响算法性能的主要因素和汇编代码优化方法,并重点针对多核向量加速器Matrix2的体系结构特点提出了一种高效的VGG卷积网络模型并行和向量化实现与优化方法。本文主要研究工作如下:首先,重点针对VGG网络模型提出一系列算法优化方法:(1)根据Matrix2向量处理器体系结构特点,将多维卷积计算转化为高效的矩阵乘法计算,并设计了按行计算的向量化计算方法,实现了FMAC高效利用。(2)根据VGG16网络模型特点,利用数据布局、软件流水等方法设计了优化的池化和全连接层向量化实现方法。(3)根据卷积层、池化层和全连接层的计算和数据传输特点,设计了相应的基于DMA双缓冲的优化数据传输方法,最大限度的将计算时间与数据传输时间重叠,有效的提高了网络模型的整体计算性能。(4)根据VGG16网络模型的卷积核参数共享特点,通过多核数据布局、DDR外设地址划分、数据同步批处理和组播DMA等方法设计了高效的多核并行VGG16网络模型实现方法。其次,利用GCC编译器生成VGG16网络各层神经元的输入数据,在GCC上搭建VGG16网络计算出对应输出,并在Linux操作系统中利用NC-Verilog搭建的Matrix2软件仿真环境对VGG16网络模型汇编程序进行仿真和调试,保证了两仿真环境下输出的唯一性。最后,对Matrix2处理器进行VGG16网络模型映射,并借助已经训练好的卷积核模拟真实环境进行图像识别。实验结果表明,本文提出的VGG16网络模型并行和向量化优化方法的内核计算效率高达93%,网络整体性能高达115帧/秒。综上,本文提出了一种多核并行VGG16网络设计与优化方法,实现了高效的计算效率,对于其他深度学习算法的移植也有积极的借鉴意义。
其他文献
随着物联网、大数据与人工智能技术的普遍应用,通过无线传感器网络获取节点的位置信息变得越来越重要,准确了解数据的地理位置信息,对获取的数据做进一步分析研究具有十分重要的意义。无线传感器网络中节点数量众多,节点位置分散,因此进一步减小节点定位误差具有重要的理论价值与应用意义。节点定位的算法中,DV-HOP定位算法是一种比较普遍、应用也十分广泛的算法。本文在对DV-HOP算法中未知节点平均跳距存在较大误
英语学习中,阅读是最基础的技能之一,中学生在学习中务必要掌握阅读技巧。然而,由于中考的需要,很多中学老师仍以教师为中心的传统阅读教学为主还不能满足学生实际英语阅读需求,这就导致了学生英语阅读效率低。拼图模式是合作学习中的有效学习形式之一,通过分成异质原始和专家小组使学生在合作中完成阅读任务,激发学生的英语阅读兴趣,成功建立了学生之间彼此依赖、互助合作的和谐学习氛围。在为期三个月的研究中,本研究试图
随着人工智能技术的发展,其在经济、军事、医疗等多个领域中得到了广泛的应用。人工智能在政务服务中应用具有释放、优化、增补价值,前景广阔。人工智能在政务服务中的应用分为三类应用场景,一是人工智能在以公众为对象的公众核身服务、公众客户服务、公众信息服务等应用;二是人工智能在以企业为对象的企业招标投标、企业纳税服务、企业证照办理等应用;三是人工智能在以政府为对象的政府人员培训、政府公文处理、政府决策机制等
射频前端组件中低噪声放大器(LNA)位于通信接收系统的核心,是典型的强电磁辐射场微波(HPM)“前门”攻击的主要对象,因此对于射频组件前端强电磁辐射场效应预测方法与建模研究具有十分重要的现实意义。本文旨在对低噪声放大器进行强电磁辐射场微波脉冲效应理论分析与仿真建模试验研究,进一步的了解与掌握强电磁辐射场微波脉冲对低噪声放大器的作用过程和效应机理,为射频前端组件在强电磁辐射场环境下提供技术基础与支持
随着国家工业的发展,经济的突飞猛进,每天有大量工业污水排入河流。水环境正遭受严重的污染。因此,国家逐渐出台水环境治理把控政策,从源头治理水环境污染,加强入河排污口监
随着不可再生能源消耗的加剧,造成环境污染日趋严重,发展电动汽车再次吸引世人的高度关注,轮毂电机电动汽车相较于传统汽车其结构大为简化,整车质量得到减轻,提高了传动效率,
城乡公交一体化是城乡公共服务均等化和公交优先发展的客观需要。随着我国农村城市化进程的加快,农村居民的公平意识日益增长,越来越多人希望拥有和城市居民同等的公交待遇。
图谱理论是代数图论及其应用研究领域的一个重要方向,矩阵在研究图谱理论中发挥了重要的作用.同时,人们引入了与超图的结构有密切联系的张量,如:邻接张量、拉普拉斯张量和无符号拉普拉斯张量等.张量作为矩阵的一般形式推广,为超图的谱理论研究提供了一个重要的工具.关于图的特征值和图结构关系的研究是图谱理论的核心问题,超图是图的推广,随着张量特征值研究的不断深入,超图谱理论得到了人们广泛的关注.超图谱理论主要研
近年来,随着互联网技术的高速发展,人们越来越重视信息传输过程中的安全性问题。无载体信息隐藏技术的出现有效的保证了信息在隐蔽传输过程中具有良好的安全性以及抗攻击性,但是目前无载体信息隐藏的研究主要集中于以图像和文本作为载体,基于流媒体的信息隐藏手段发展仍然缓慢,而载体的类型往往会对隐藏信息容量以及信息的传播方式产生限制。本论文在无载体信息隐藏方法中结合计算机自动作曲以及音乐信息检索等技术针对流媒体的
在近地面炮弹武器的设计、测试和改进中,确定炮弹能在预先设计的位置范围内爆炸是评价炮弹毁伤效能的一个重要指标。目前,采用图像处理设备检测爆炸目标普遍存在检测精度低、硬件成本高、系统功能单一和不支持远程操作等缺点。而且,在目标检测系统中应用较多的FPGA处理器,虽然具有高并行化运算能力,但对于算法中复杂逻辑的判断难以处理。为此,本文以Zynq为核心处理器,充分发挥其软硬件协同设计的优势,研制出一套集图