深度学习算法加速器的设计空间探索与FPGA原型的设计与实现

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:robbieqzl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
卷积神经网络(CNNs)是深度学习算法中重要分支。CNNs由于其良好的非线性拟合特性,使得其在图像分类,语音识别等领域取得了辉煌的成就。随着CNNs的不断发展和进步,现实应用中涉及到CNNs的领域越来越广泛,应用者对其的性能要求越来越高。通过分析近几年ImageNet比赛中优秀的神经网络,网络更加深度化复杂化成为一种趋势。其访存和计算成为了限制性能的主要瓶颈。因此,针对CNNs的加速成为必不可少的工作。FPGA在灵活性,功耗和开发周期层面上,相比于GPU,ASIC有着先天的优势,从而成为了加速CNNs中不可忽视的一个重要领域。针对加速工作上的挑战,本课题做了以下的工作。第一,结合已有的研究成果,以Roof-line模型为指导,以硬件模拟器为基础,外围优化模块为辅助,设计和实现了针对CNNs中卷积层的设计空间探索框架ACCDSE。框架可以实现在多种性能要求下的参数配置,在加速器设计的早期确定相关参数。第二,通过对深度学习框架Caffe的修改,将训练过程中的浮点运算更换为定点运算,降低运算复杂度的同时,为采用定点运算的硬件加速器提供了训练平台。第三,根据前两部分的研究成果,在FPGA平台上设计并实现了一款LeNet推理加速引擎,采用8位定点运算精度,应用了多种优化手段提高性能,包括:权值拆分,乒乓优化等,并借助数学模型对资源分配进行优化。在Xilinx 485t FPGA进行了多个版本的硬件实现。通过硬件评估报告可以得到,在相同配置参数下的8位定点推理引擎相比于32位定点,降低了31.43%的延迟,节约了87.01%的LUT资源,66.5%的片上存储(BRAM),65.11%的DSP资源和47.95%的功耗。利用乒乓优化手段实现粗粒度的流水线之后,吞吐量达到了44.9Gops。这时的准确率仅仅比32位定点引擎下降了1%。
其他文献
<正>如果说真的存在一种中国模式,其核心内涵就是不相信任何现成理论与模式中国各驻外使馆举办例行的国庆招待会,某些发展中国家的领导人前往祝贺时不约而同地提出"中国的
氟哌酸制剂研究进展姜秀英,马学东,方福军(新疆克拉玛依市石油局总医院药剂科克拉码依834000)氟哌酸已被临床确证为高效广谱抗菌药,目前国内只有片剂和胶囊剂上市,限制了其疗效的进一步发
全球经济重心重新东移特别是中国经济的崛起正在挑战主流经济金融学的至尊地位,使得人们对一种更具解释力的分析范式充满期待。主流学者凭借"无机"哲学观,固执地捍卫着单凭市
大学英语翻译教学应积极培养学生跨文化意识,强化学生跨文化交际能力,以便学生能够更好地理解中西方文化之间的差异,从而为祖国培养更多的翻译人才。基于此点,在重点分析大学
<正>近年来,湖州市委直属机关工委通过实施"青领计划",加快培养锻造一支忠诚干净担当的高素质专业化年轻党员干部队伍,为湖州高质量赶超发展贡献青春力量。在思想上"领",提高
株树桥水库多年来采用多种方法查渗漏都未能解决问题,后应用水下电视,查明水库渗漏主要是面板破损及面板坍塌形成的集中渗漏,用水下电视确定面板破损和渗漏的具体位置并进行
目的分析呼吸机使用过程中的不安全因素和干预对策,以帮助护理人员树立呼吸机使用中的安全意识和规范护理措施。方法回顾性分析98例机械通气患者呼吸机报警原因及安全隐患,总结
嘉 宾:田保华 河南省郑州市教育局原副局长$$张宏伟 特级教师、全课程实验核心专家$$赵 磊 山东省聊城市东昌中学校长$$王红顺 河南民办教育共同体理事长$$张正彪 河南省郑州
报纸
加强建设工程造价管理,控制和合理确定工程造价,确保工程造价的准确性,是建设工程造价管理的首要任务,它对控制固定资产投资规模、防止"三超"现象起着关键作用.随着我国社会
开展文化统计的意义政府的经济统计已经有了较长时间的历史,而系统地对文化进行统计研究只是近十几年的事情。有人对开展文化统计的研究表示了怀疑和不解,他们认为在文化领域