基于FPGA的卷积神经网络图像分类算法硬件加速电路设计与实现

来源 :东南大学 | 被引量 : 2次 | 上传用户:strengthandhonor
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,卷积神经网络在图像分类、语音识别及自动驾驶等领域有了十分优异的表现,成为了一大研究热点。然而,移动设备领域存在计算能力及功耗的要求,使得采用图形处理器(Graphics Processing Unit,GPU)完成卷积神经网络加速器的工作非常困难,更多是在云端完成后直接获得结果。为了今后能够在移动端不过多增加成本和功耗的前提下,采用专用集成电路(Application Specific Integrated Circuit,ASIC)完成卷积神经网络加速器工作,减轻云端通信的负载,本课题提出了一种混合型卷积神经网络结构,并在现场可编程门阵列(Field Programmable Gate Array,FPGA)上进行了电路实现,在保证准确率的前提下,减少了大量乘法计算量,完成了卷积神经网络的硬件加速。本文的工作主要包括以下三点:针对卷积层的复杂乘法运算,将卷积神经网络中卷积层的浮点乘法运算通过量化的方式转变成简单的同或(XNOR)计算,保留卷积神经网络中原本的全连接层结构,从而在保障卷积神经网络有效识别率的前提下实现乘法资源的节约;针对卷积神经网络中卷积层的局部感受野特性,本课题设计了一种层间流水结构,极大地发挥了硬件电路的并行计算能力;为减少系统在数据存取上的时间花费并方便计算,本课题提出了一种自然存储策略。结合以上三点,本课题完成了卷积神经网络图像分类算法硬件加速电路设计,并对Lenet-5神经网络进行了针对性测试。本设计在Xilinx Artix-7 xc7z020clg400-1上实现,结果表明,在150MHz的时钟频率下处理单张MNIST数据集中的样本数据仅需要18.97,相比于Intel Xeon E5-2680平台下的804.33速度提升了42.4倍,相比于NVIDIA Tesla K20X平台下的133.5则提升了7.04倍;识别准确率可达到98.4%,只比原始Lenet-5神经网络的98.8%识别率降低了0.4%;乘法运算量下降了85.6%。
其他文献
课堂是学生获取知识的主要途径.是教学的主要阵地.如何提高课堂教学历来是广大教师所普遍关注的重要话题。数学具有较强的抽象性.这对于刚刚步人学校的小学生来说具有一定的难度
随着我国经济的突飞猛进,人民的生活水平日益提高,各类汽车也逐步进入寻常百姓家,星如棋布的成品油零售网络终端——加油站也成为社会基础设施的组成部分。近年来,由于零售成
随着各种新兴互联网技术的发展,数据体量呈现出指数型增长。数据的不断累积,使得企业现有业务平台面临着性能不足、资源花费过多等问题,已无法较好的满足高性能、高并发的需求。而大数据平台存储容量巨大且支持大规模数据的复杂计算,能够对数据进行更深层次的价值分析,因此把一些存在价值的历史数据迁移到大数据平台十分有必要,不仅可以缓解现有业务平台的生产压力,还可以发掘新的业务方向。本文结合某世界前五百强通信企业的
科技的进步将“技术风险”扩张到了全人类的实践活动当中,我们已然进入了“风险社会”,但我们不可能为了消灭风险而停止科技进步。近年来,公民个人信息背后巨大的经济利益趋使侵犯公民个人信息违法犯罪态势愈演愈烈,如何在风险社会中更好地保护公民个人信息,成为新的刑法问题。本文首先结合不同学说分析界定“公民个人信息”的具体内涵,认为“识别论”的定义范式较为合理,总结了“公民个人信息”的主要特征,又列出我国目前“
在很多以三相异步电动机为动力源的应用场合,往往对电机输出转速的精度要求不高,但要求电机能够迅速的启动和制动。针对这一问题,本文通过对三相异步电动机机械特性的分析,提
通过定量分析中严密的理论计算与推导,得出了孕镶金刚石钻头时效和寿命与钻头有关参数的量化关系.研究表明:定量研究结论与有关定性结果完全吻合,这说明通过研究得出钻头性能
在经济下行的背景下,经济学界与政界人士批评《劳动合同法》相关制度降低劳动力市场灵活性、推高企业成本,修法的呼声此起彼伏。《劳动合同法》第三十八条第一款第(二)项作为
<正> 由天津市健昌特种安瓿有限公司研制开发的专利产品——“自毁型一次性使用无菌注射器”与威海医用高分子(集团)股份有限公司进行合作,现已正式生产,2003年初开始投入市