论文部分内容阅读
伴随着大数据时代的到来,数据呈爆炸性增长。如何有效地组织海量数据并从中提取有价值信息成为一个难题。深度学习模型是一个多层的神经网络,模拟了大脑皮层的层次学习结构,能够对大数据进行数据挖掘、特征提取和分类等操作,已成为机器学习领域最为炙手可热的模型之一。深度学习算法是典型的计算密集型应用,速度瓶颈和对大规模计算平台的依赖也日益成为深度学习算法实用和推广的障碍,因此,深度学习算法加速技术的研究逐渐成为热点。利用FPGA平台和可重构技术,对深度学习算法进行硬化实现,是实现深度学习算法加速处理的有效途径。目前,采用FPGA实现的深度学习算法加速器研究刚刚起步,还局限在对特定算法的定制实现和加速。本文针对深度学习算法的可重构加速器技术进行研究,期望能够为深度学习算法提供一个通用的硬件加速平台。本文首先对各类深度学习算法的算法流程、执行特征、操作要素等方面进行分析,总结和归纳深度学习算法中典型的运算模板。基于分析,提出了标量处理器与向量处理器相结合的协处理器架构,命名为SVP-DL(Super-Vector co-Processor for Deep Learning algorithms),并设计了专门的指令集系统,用来编写应用程序在SVP-DL上运行。接下来文章详细介绍了在SVP-DL处理器上映射深度学习算法的方法,并针对算法映射自动化进行了探讨。我们将SVP-DL处理器布局在Xilinx XC7VX485T芯片上,并针对DBN算法的运行结果与软件运行结果进行了对比,实验结果表明,在SVP-DL处理器上有2倍多的加速比。在未来的工作中,我们将研究深度学习算法在FPGA集群上的加速研究,以期更加充分的挖掘算法的并行性,达到更好的加速效果。此外,还要完善自动化工具链,使深度学习算法的加速更加容易操作,以期得到更好的推广。