基于FPGA的深度卷积神经网络硬件加速方法研究

来源 :东北师范大学 | 被引量 : 3次 | 上传用户:s362613932
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
卷积神经网络(CNN)算法是人工智能深度学习领域的研究重点与热点,近年来,随着算法与硬件技术的发展,CNN正越来越广泛地推动着人类社会信息化、智能化的进程。由于CNN算法计算量与数据量巨大,因此,其算法加速成为必然。目前针对CNN算法的计算加速平台主要分为GPU、ASIC与FPGA三类,GPU虽然开发效率高、通用性好,但其功耗高,很难在嵌入式平台发挥优势;ASIC能效比高,但其开发周期长与开发成本高,也很难做到广泛的适配;基于FPGA开发的硬件加速系统综合了GPU开发效率高、通用性好与ASIC能效比高的优势,更适合应用于嵌入式平台的CNN算法计算加速。本文针对CNN算法在嵌入式设备或边缘计算设备中的应用,以其硬件计算加速为目标,进行了以下研究:首先,对CNN算法并行优化方法进行研究,通过对算法的拆分与重组和循环展开,分析适合算法硬件加速的优化方式,确定硬件系统设计研究重点。其次,基于FPGA可自定义数字逻辑、硬件可重构与门级并行等优势,提出硬件实现的计算与存储优化方法,其中包括用于计算的可配置定点小数运算模块,用于数据位宽匹配的串并行转换存储结构,用于适配不同尺寸特征图的动态深度可配置FIFO。再次,提出了一种基于SOPC软硬件协同技术设计的模块化可配置CNN硬件加速系统,通过可配置的并行流水线乘累加硬件计算结构对卷积与全连接净输入乘累加运算进行加速,通过可配置的激活池化模块对算法中偏置激活和池化运算进行加速,并编程实现了硬件设计自动化编译器用于CNN模型硬件加速系统源文件的自动生成。最后,针对MNIST数据集,利用提出的设计自动生成了手写数字识别网络的硬件加速系统,并在EP4CE115F29C7型中低端FPGA上进行硬件加速系统测试,当配置为16位定点小数精度、4组并行计算通道与16输入乘累加树时,系统逻辑资源与DSP占用分别为11%与25%,系统时钟能稳定运行在100MHz,峰值数据吞吐率达到12.4 GOPS,测试计算速度为i5-6500型CPU的24.26倍,与GTX750型GPU性能相当。对比C语言双精度浮点计算结果,输出层累计误差在0.095以内。结果表明,本文所提出的硬件加速系统资源占用较少,能准确有效地实现CNN算法计算,具有高度的可配置性与可移植性,适用于嵌入式平台CNN算法的计算加速。
其他文献
肉种鸡、公鸡常因吃到母鸡的料而超重,为此,在公鸡鼻孔插入限饲器,可以保证公鸡在产蛋后期体重仍接近标准,种蛋受精率也有所提高。
目的探讨镍铬烤瓷合金中添加钛(Ti)、稀土金属以及不含铍(Be)对金瓷结合性能的影响。方法选用中国科学院金属研究所研制的镍铬烤瓷合金,按照是否含铍和稀土金属分为3个实验组(R1、
目的探讨男性2型糖尿病患者骨密度变化的相关影响因素,为骨质疏松的防治提供参考。方法选取2017年1月至2019年6月在我院进行住院治疗的464例男性2型糖尿病患者,采取双能X线骨
席卷全国的新农村建设运动在广大农村产生了普遍而深远的影响。文章通过具体规划实例,客观翔实地分析了新农村建设运动与乡土建筑更新保护之间的辩证关系。提出在新农村建设
进入21世纪以来,随着杭州西湖综合保护工程的实施,西湖风景区绿地建设事业得到了长足发展,景区生态环境和景观质量均得到了极大改善。本文基于笔者近年来开展的针对西湖综合
目的探讨低氧诱导因子-1α(HIF-1α)在原发性颊黏膜鳞癌中的表达变化及其意义。方法通过免疫组织化学方法,了解HIF-1α在60例原发性颊黏膜鳞癌中的表达,分析其阳性表达水平与颊癌
目的:探讨下调paxillin高表达对结直肠癌细胞SW480细胞信号转导及超微结构的影响.方法:设计两种siRNA片段并用其转染高表达paxillin的结直肠癌细胞SW480细胞系,以空质粒作为阴
本刊讯:省委常委常务副省长欧广源同志在2月23日举行的全省审计工作会议上作了重要讲话。 欧副省长说,在过去的一年,全省审计机关的广大审计人员,认真学习江总书记“三个代表”的重