论文部分内容阅读
近年来,卷积神经网络算法在计算机视觉领域取得越来越突出的成就。信息时代数据的爆炸让算法“学”得越来越多,集成电路的发展提供的强大计算能力让算法“学”得越来越快。但是,算法在取得越来越好的效果的同时,复杂度也越来越高。另一方面,智能手机、机器人、智能驾驶等技术开始广泛应用,而在这些应用场合下,由于隐私、实时性强等要求,大部分应用只能进行本地运算,传统的通用处理器架构并不适合算法的实时运算,所以有必要对算法的加速进行探索研究。本文具体工作和创新如下:1、本文训练了基于卷积神经网络的人脸识别算法,并基于该算法搭建了人脸检测系统,该系统试验结果表明本文训练的人脸识别算法具有一定实用性;另外,本文也训练了基于卷积神经网络的数字识别算法;两个算法都达到了较高的识别准确率。2、本文针对卷积神经网络算法难以在传统处理器进行实时计算这一问题,采用了一些设计方法,提出一种卷积神经网络加速器架构。该架构针对算法密集的乘累加计算设计专用的乘累加计算单元;根据数据可重用性,设计不同的缓存级数用于对数据进行重用,减少额外的访存;依据卷积神经网络算法的并行性将计算单元设计成可并行模式,并将计算架构设计成并行可配置形式,用于支持算法的不同并行计算方式;根据卷积神经网络算法计算中有很多“0”参与运算,将乘法器设计成可避免“0”参与计算的模式;另外本文在设计计算结构时,将二维卷积化解为一维卷积减少了乘法器的使用,使本文提出的架构,相比于同类型加速器架构,在性能上有较大优势。3、本文在FPGA上设计了提出的硬件加速器架构,并基于该架构实现了基于卷积神经网络的人脸识别以及数字识别算法。实验结果显示,该加速器每秒钟可以识别约3000张图片,相比于当前的主流CPU,本文提出的加速器实现了高达28倍的加速比;同时,相对于同类型的加速器,本设计在资源使用上降低了47%。