卷积神经网络的FPGA加速器温度与性能优化设计

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：slcsg956

【摘要】

：

现场可编程门阵列(Field Programmable Gate Arrays，FPGAs)因具有开发周期短、功耗低、可重构等优势而在图像处理、视频追踪、自主导航等领域中被广泛应用于卷积神经网络加速

【作者】

：

陆维娜

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2018年期

【关键词】

：

现场可编程门阵列加速器卷积神经网络性能优化

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

现场可编程门阵列(Field Programmable Gate Arrays，FPGAs)因具有开发周期短、功耗低、可重构等优势而在图像处理、视频追踪、自主导航等领域中被广泛应用于卷积神经网络加速器设计的实现。卷积神经网络往往具有较高的资源及带宽需求。在温度方面，布局布线资源的不均匀分布易导致FPGA存在显著的片上温差，进而影响电路的可靠性及FPGA使用寿命;在性能方面，不同的并行策略会导致电路受到不同类型资源的限制，进而影响性能。由于FPGA的温度和性能优化对资源、访存及频率的需求互斥，温度和性能的制约关系使得二者的优化成为研究热点。本文从FPGA的温度优化、性能优化、温度及性能协同优化三个角度，研究卷积神经网络FPGA加速器设计的温度和性能。本文的主要贡献及创新性研究成果包括:　　1.提出了一种基于实测温度的热点驱动FPGA布局优化方法。由于设计阶段的温度优化往往难以获得准确的片上温度分布，运行阶段的温度管理往往带来较大性能开销，因此，提出将实测温度反馈至布局阶段进行热点优化。首先，在运行阶段，通过可编程温度传感器获取未优化电路的准确温度分布。然后，对FPGA电路的布局进行一次性的热点优化调整。其中，该热点驱动的布局问题被建模为超二部图最小匹配问题，并采用启发式算法求解。最后将该方法实现在基于VTR-to-Bitstream的开源、商用混合设计流程上。该设计流程所支持的基准电路实验结果表明，通过加入用户可调的温度、性能权衡参数，温度优先的参数设置可降低片上最高温达7.75℃，改善热均匀性达14.52％;性能优先的参数设置可降低片上最高温达4.87℃，改善热均匀性达6.96％。　　2.提出了一种跨层优化的卷积神经网络FPGA加速器性能优化方法。卷积神经网络往往具有较高的计算及带宽需求。通过循环分块、循环展开和循环调序可以有效提升层内计算和数据复用，通过引入流水级设计可以进一步提升网络层间的并行计算。然而，层间并行方面的计算效率和数据复用还有待发掘。因此，首先综合考虑层内和层间的计算资源利用率，提出跨层对齐策略，提升被占用资源的计算效率，降低运行周期数。然后针对各并行计算层的缓存需求，提出跨层保留策略，提升层间数据的片上复用，减小对外访存。最后对异构流式结构的设计空间探索问题建模，采用遗传算法、贪心算法嵌套的启发式算法求解。该方法在全精度AlexNet、VGG-Net和低精度BinaryNet的实验结果表明，所提设计方法可分别提升全精度与低精度网络的性能达4.13倍及6.03倍，说明对不同精度的卷积神经网络均能设计实现较高性能。　　3.提出了一种利用实际温度裕度的卷积神经网络FPGA加速器设计方法。卷积神经网络FPGA加速器的性能由并行度及运行频率共同决定。然而，加速器的设计空间探索往往着重优化并行度，将频率设定为商用工具给出的保守频率值。由于实际应用场景的温度、电压及FPGA工艺偏差往往与保守预估存在较大误差，频率存在较高的提升空间。因此，首先对频率、并行度及其影响因素间的关系进行详细分析，建立资源与并行度间的量化建模。然后探索加速器在不同并行度下实际可达的最高频率，建立频率与并行度间的分析模型。最后对卷积神经网络的FPGA加速器设计进行问题抽象，提出可同时求解频率和并行度的设计空间探索方法。在深度神经网络AlexNet上的实验结果表明，所提方法可实现吞吐量达906.25GOPS，与国际上同类方法相比，提高了39％。

其他文献

高速无线传感器网络拥塞及延时问题研究

无线传感器网络(Wireless Sensor Networks，WSNs)是一种集信息采集、信息处理、信息传输的综合智能网络系统。在WSNs中，传感器节点以随机自组织的方式协作地感知和采集各种环境

学位

无线传感器网络拥塞控制服务质量实时传输吞吐量ECODA协议

面向互联网新闻评论的中文命名实体识别与消解

命名实体识别和共指消解是自然语言处理中的两个基本问题,在文本的很多相关任务中都有着重要应用。当前对这两个问题的研究工作主要针对新闻、广播等一些正规的文本语料。随

学位

互联网中文新闻评论命名实体识别共指消解实体抽取自然语言处理

分布式地理建模环境中地理模型的管理及集成

针对当前地理建模、地理模型共享过程中存在的“模型孤岛”问题,我们提出了分布式地理建模环境的构想。这一构想的目标是为地理学家提供一个便捷的平台,使其能够方便地复用已

学位

分布式地理建模地理模型元数据规范管理环境

基于内容的SVM图像分类系统的研究与实现

随着Internet技术的快速发展和数码照相机、扫描仪等图像采集设备的普及,图像信息呈现出爆炸式的增长,并在遥感、航天、安全、医疗等领域得到了广泛应用。作为一种直观的信息

学位

图像分类支持向量机多特征融合特征权重自适应颜色直方图灰度共生矩阵

面向航班进离港调度的系统模型研究

近年来,我国民航飞行量快速增长。然而,由于管制方式的落后,导致了航班进离港的调度效率较低,在一些繁忙的机场和终端区经常发生空中交通拥挤现象,严重干扰了航班的正常运行,

学位

终端区协同技术协同模型角色关注点分离

并行计算在稳健投资组合优化中的应用研究

计算金融是融合现代计算技术、数学理论与方法、金融学理论以解决复杂金融问题的崭新的研究领域。数量化投资管理是目前该领域比较热门的一项研究内容，已经成为金融投资机构争

学位

并行计算投资管理投资组合优化投资风险

多核处理器任务调度算法及形式化验证方法研究

随着应用多样化和计算需求的不断提升，多核处理器系统在性能、功耗、灵活性等方面优势明显，被广泛用于网络、通信、信号处理、多媒体应用等领域。处理器核数量的增长为系统性能

学位

多核处理器任务调度算法负载均衡能耗约束多目标优化形式化验证

基于深度学习的医学图像内容理解关键技术研究

对医学图像的内容理解是应用计算机视觉与人工智能进行医学影像分析的基本问题之一，从二维或三维影像数据中理解图像内容一直是医学图像应用研究的重点领域，涉及到感兴趣目标的

学位

医学图像内容理解图像分类语义识别深度学习

基于非参数模型的图像分割方法研究

图像分割指把图像分成各具特性的区域并提取出感兴趣区域的技术和过程。图像分割是图像视觉分析和模式识别的基本前提,同时它也是一个经典难题,到目前为止没有一种适合于所有

学位

非参数分割算法水平集方法信息熵理论在图像分割中运用改进种子点填充算法

基于数字图像处理的不规则体投影面积测量方法的研究与应用

在工业领域,要想实现快速,准确的检测、分选、记录不规则物体产品,就要能够快速、准确的测量出不规则体的面积,这对提高经济效益有着非常重要的意义。基于数字图像处理的不规

学位

不规则体面积测量图像处理破片迎风面积

卷积神经网络的FPGA加速器温度与性能优化设计

与本文相关的学术论文