基于快速傅里叶变换的卷积神经网络加速器设计

来源 :天津大学 | 被引量 : 0次 | 上传用户:pan07631014
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在卷积神经网络中,密集型的计算会使软件运行速度过慢,很难达到复杂应用的实时响应,因此针对卷积神经网络的硬件加速方案逐渐成为了主流。现有的卷积神经网络已被证明超过90%以上的计算是在卷积层完成的,而且传统卷积层的输入特征图与卷积核乘累加的计算会因加法树的存在而限制并行性,本身的浮点计算量也非常的巨大,严重影响了整个网络的计算时间。因此,针对卷积层的算法改进及硬件加速对整个卷积神经网络的运行效率和性能来说有着至关重要的影响。本文首先基于时域卷积结果与频域点乘结果相等的原理,降低卷积的浮点计算量。然后采用快速傅里叶变换将时域输入特征图与卷积核转化到频域后,进行相应的点乘操作,再转回时域,得到卷积的输出结果。但输入特征图与卷积核的尺寸相差比较大,会产生很多的无效运算,使效果不明显,因此在本文中又使用了将输入特征图进行分割的操作进行算法优化,此过程极大的解决了频域卷积无效运算的问题。最后为了使频域卷积灵活的适用于各种网络,本文提出8点,16点及32点的快速傅里叶算法,以指导频域卷积硬件的实现。本文在赛灵思FPGA-ZYNQ Ultra Scale+MPSo C ZCU102板卡上实现频域卷积的硬件加速,然后将卷积硬件与处理器硬核进行链接,搭建整个硬件平台系统并进行软件应用的设计,实现了面向频域卷积的硬件加速器设计,完成软硬件协同工作。最后对比了VGG16网络下分类Image Net数据集的时域卷积与频域卷积的计算时间。从运行结果来看,此加速设计比时域快了近8.5倍。
其他文献
自2018以来,越来越多的6mA位点相关数据被发现。同时6mA位点的识别也开始受到越来越多学者的关注。6mA位点的识别在生物信息学领域具有重大的意义。目前,越来越多的6mA位点识别的方法被提出来。其中,大多数学者都采用到了机器学习的方法来识别6mA位点并且都取得了不错的效果。但是,相比于众多的数据和物种,仍然需要更多的计算方法来进行识别。目前多数传统的机器学习或者深度学习方法都只在单一物种上有效。
学位
随着近些年来物联网(IoT)和云计算的蓬勃发展,密码安全也愈发显得重要。公钥密码体制无疑作为最受业界青睐的密码体制之一,也为广大密码学者及科研人员尤其关心的对象。对现存在有的相关密码算法实现侧信道攻击,有助于了解该密码算法的安全性和不足之处,有助于对该算法进行详细的评估,在原有算法基础上增加更有效防护策略,使得该密码算法更具备抗攻击性。本文针对盲化Boscher RSA加密算法,在SASEBO-G
学位
区块链为数据的安全可信存储提供了不以人的意志为转移的技术保障。传统区块链系统为了满足数据安全与去中心化的设计要求,将全量数据存储在所有的全节点,并通过分布式共识机制来实现数据更新操作以及全局一致性视图,从而消除中心化架构的弊端和信任问题。然而,随着区块链系统的运行,全节点的规模以及数据的体量都会越来越大,这将不可避免的带来巨大的数据冗余和节点存储压力。因此,区块链存储可扩展性方案的均衡设计成为一项
学位
物体计数是密集计数任务的拓展,是对图像或者视频中感兴趣的物体进行数目统计。基于物体计数的研究可以分为两类:基于检测的物体计数和基于回归的物体计数。基于检测的物体计数方法预估物体数目通常远远小于真实物体数目。基于密度图估计的回归方法由于输出的密度图保存了物体的空间信息,从而能够对密集小物体实现接近真实数目的计数,但是这种方法由于缺乏物体的位置信息,不能如目标检测一样定位到每个实例,失去可靠性,限制了
学位
当我们看一张图像时,便会很自然地联想图中人物间的关系,这能为人物性格以及可能将采取的行为提供线索。在计算机视觉领域,社会关系信息也大有用处,可被用于提高其他任务准确率,如人物轨迹预测、多目标跟踪等。目前该领域工作大部分都是针对特定场景的,因为社会关系的复杂性为通用场景下社会关系识别的完备性及准确性带来挑战。本文工作就是一种通用的社会关系识别方法。现如今,已有的相关工作还存在以下两个问题:忽略不同人
学位
二分网络的链接预测算法能够有效地识别异质类型节点之间的潜在关系,有助于分析网络的结构演化规律,在刻画以人为主体的复杂网络算法中得到了广泛的关注。常见的二分网络可以包括学者节点-机构节点二分网络、用户节点-物品节点二分网络等。然而,现今的链接预测算法存在网络数据稀疏、噪音信息多的问题。为了缓解这些问题,本文提出了基于耦合语义特征的二分网络链接预测算法,耦合语义特征抽取自不同类节点的相同文本信息中,从
学位
深度神经网络因其强大的特征表征能力而被广泛应用于人脸识别、目标检测、车牌识别等领域,极大地方便了人们的生活。然而,研究表明神经网络在面对含对抗噪声的对抗样本时展现出的脆弱性严重影响了它们的性能,更有甚者会造成很大的安全隐患。为了解决这个问题,大量传统对抗防御算法被提出,其中最有效也是应用最广泛的方法是对抗训练,即将对抗样本作为数据集,对模型进行训练,使得模型学习到含对抗噪声样本的数据特征。大量研究
学位
DNA甲基化是一种特别重要的表观遗传机制在许多细胞功能中起重要作用,如遗传性能,染色质结构和抑制重复性序列。N4-甲基胞嘧啶(4m C)是在原核和真核生物基因组中检测到的三种常见的DNA甲基化之一。DNA N4-甲基胞嘧啶位点(4m C)不仅与哺乳动物的发育有关,而且与一些人类疾病的产生有着密切的联系。揭示DNA N4-甲基胞嘧啶位点(4m C)的生物学意义可以帮助我们更好的理解DNA甲基化并为疾
学位
复杂网络中一些具有高度连接特性的节点更倾向于共享相同的属性,所以在复杂网络中,往往隐含着很多功能模块,这些功能模块称为社团,社团发现方法可以有效分析并探索社团结构,可以帮助人们更好地理解复杂系统的交互原理并预测他们的未来发展趋势。近年来,许多社团发现方法被不断提出,其中基于统计模型的方法由于其坚实的理论基础和优越的性能而得到了广泛的应用。随机块模型(Stochastic Block Model,S
学位
眼动交互作为一种新兴的人机交互方式,具有广泛的应用前景,尤其是在虚拟现实领域,更是近年来的研究热点。眼动交互的前提是精准快速地注视点估计,本文对头戴式设备中的注视点估计方法进行了研究,搭建了一套头戴式眼动跟踪系统,并对文中的算法进行实际场景测试。注视点估计方法可以分为基于几何模型的注视点估计方法和基于外观的注视点估计方法。本文首先研究了基于几何模型的注视点估计方法,该方法在眼动特征与注视点之间建立
学位