基于近似计算的拟牛顿神经网络训练算法的硬件实现

来源 :天津大学 | 被引量 : 0次 | 上传用户:ztwpc2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,人工神经网络技术快速发展,已应用到电子、经济、医疗等各个领域。训练是建立神经网络的关键步骤。拟牛顿方法被认为是最有效的神经网络训练算法之一。当神经网络架构比较复杂时,拟牛顿算法的软件实现往往需要消耗很长的时间。为了加速训练过程,在FPGA上实现了基于单精度浮点算术的拟牛顿神经网络训练算法硬件加速平台。该平台共包括初始化、线搜索、梯度计算、矩阵更新、目标函数计算和控制六大模块。通过对硬件加速平台各个模块进行资源评估和运行时间评估,发现其仍有较大的优化空间。本文旨在使用近似计算技术对拟牛顿神经网络训练算法硬件加速平台进行优化。首先,通过资源分析发现矩阵更新模块消耗大量的存储资源和计算资源,所以对矩阵更新模块进行定点化优化,实现了基于定点矩阵更新的混合精度拟牛顿算法硬件平台。在定点化过程中,使用矩阵正定性检测和矩阵重置的方法解决上溢问题,使用精度缩放的方式解决由于位宽不足引起的精度下降问题。最后根据定点化结果设计了矩阵更新模块的硬件架构。实验结果表明,与单精度浮点拟牛顿算法硬件实现相比,混合精度的设计最高降低10.9%LUT,20.2%FF,2.2%DSP和18.1%BRAM。其次,通过时间分析发现线搜索模块为最耗时模块,使用非精确线搜索代替精确线搜索的方式进行优化,并提出两种基于非精确线搜索的拟牛顿算法硬件实现方案。第一,提出了一种全硬件实现方案,非精确线搜索计算量的降低使得全硬件拟牛顿算法相对于软件设计最高实现239倍的加速。第二,线搜索模块的优化使得软硬件协同设计成为可能。通过将资源消耗较多的目标函数计算模块转移到CPU,达到在运行速度和资源消耗之间权衡的目的。实验结果显示,软硬件协同方案相对于软件设计最高加速153倍,相对于原设计降低45%LUT,29%FF和64%DSP资源消耗。
其他文献
汽车向智能化发展的过程中产生了时延敏感密集型的车载应用,这给车联网在计算资源、存储资源和通信能力带来了挑战。本文以智能车联网为研究对象,面向车联网低时延应用需求,
双酚A(Biphenol A,BPA)早已被认定为典型的环境内分泌干扰物,它的化学结构类似己烯雌酚,具有弱雌激素、抗雌激素和抗雄激素的作用。实验室早期研究发现,BPA暴露后可影响社会
近年来,随着科技水平的迅速提高,电子产品的使用周期不断缩短,从而使得电子垃圾的产量急剧增大。废线路板作为一种典型的电子垃圾,具有高回收价值、高潜在污染性等特点,如何
工件识别与分类任务是工业生产流程中一项十分常见的工作任务,它能够把不同种类的目标工件进行正确的分类处理,也可以用于分拣出有质量缺陷的工件。现有的零件识别算法基本都
将镧系元素(Ln(Ⅲ))和锕系元素(An(Ⅲ))分离是乏燃料后处理的重要环节之一,对核能可持续发展具有重大意义。含氮配体被认为是Ln/An分离中非常具有前景的一类试剂。其中,如何修饰这些
生物组织的结构和功能性成像对于疾病的早期诊断、治疗以及医学临床监测均具有重要意义。电阻抗层析成像技术(Electrical Impedance Tomography,EIT)是一种利用介质电学敏感
由于纯电动汽车动力系统参数优化设计的优劣会直接影响汽车的动力性能与经济性能,因此有必要对动力系统参数进行优化研究。经过优化后的参数,使动力系统的驱动电机,动力电池
Web事件驱动特性以及页面结构、内容的动态性,给Web应用测试带来了极大的挑战。DOM事件依赖图可有效辅助测试人员和开发人员理解、调试并修复Web应用,对测试有着重要的作用。如何针对Web应用特性分析其DOM事件依赖关系及构建DOM事件依赖图是Web应用测试的重要研究内容。在现代Web应用中,JavaScript通过对DOM元素的动态操作,实现Web应用功能,但同时这些操作很可能引发DOM事件依赖
随着基因微阵列技术的发展,人们对于基因表达谱数据的研究逐渐成为了生物信息学的研究热点。这些研究为我们认识和理解生命现象提供了全新的思路与方式。而近年来,机器学习凭
BiVO4作为一种窄带隙光催化材料,其可以在可见光的条件下激发,大大提高对太阳能的利用率,提高对污染物的降解性能,但另一方面,带隙较窄使得材料在光催化反应过程中光生电子-