DNN训练处理器中访存延时优化与缓冲区分配管理的研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:hanmark
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
DNN训练处理器朝着多核多内存的方向发展,多个计算节点和多个内存节点以片上网络的方式进行片上互联是未来的研究趋势。DNN训练过程是计算密集型任务,需要多计算节点协同完成。DNN训练过程具有层同步性,则多个片上计算节点在并发执行卷积层或全连接层的计算任务时,训练性能取决于最慢的节点,即短板效应。为了避免单个计算节点成为执行训练任务的短板,需要解决各计算节点间访存公平性问题。同时处理器的操作速度要高于内存的速度,DNN训练过程是访存密集型任务,因此大量的访存请求被存放到DNN训练处理器访存接口处的缓冲区队列中,由内存系统对这些缓冲区队列中的访存请求进行服务。所以通过对DNN训练处理器访存接口处的缓冲区队列进行高效管理,一方面可以解决效率问题,以降低访存延时;另一方面也可以解决缓冲区资源管理的公平性问题,尽可能按需分配,以提高DNN训练处理器的训练性能。为了解决效率问题,对片上网络架构的DNN训练过程进行访存特征分析。对DDR4 SDRAM在不同访存场景进行访存延时分析,得出影响访存延时的主要因素是非连续性的读/写和行冲突。据此在内存系统访问接口(以下简称访存接口)处设计了专用的访存请求排序模块,对到达访存接口处的访存请求进行排序,保证训练过程正确进行的前提下提高读/写连续性和减少行冲突的次数,以降低访存延时。在仿真平台上对MNIST数据集使用Le Net-5网络进行训练,对访存接口处的访存请求进行排序。实验结果表明,与未经排序的访存请求得到的访存延时相比,排序后的访存延时具有较为明显的降低,在不同训练场景下访存延时降低范围为19.93%到32.87%之间。为解决公平性问题,则有必要对缓冲区资源进行高效管理,本文从访存接口处访存请求队列长度分配的层次上解决公平性问题。为了降低缓存区资源的消耗,采用动态缓冲区队列长度分配的方法。根据访存流量特征具有周期性的特点和训练过程中协调发送速率与服务速率的机制,提出了一种多周期自适应缓冲区队列长度分配算法。同时提出了以训练性能作为评价指标,定义为训练完一个样本所消耗的总的时钟周期数。将通用的缓冲区分配算法在本文的仿真场景下进行复现,并与多周期自适应缓冲区分配算法进行比较得到了在不同的缓冲区大小下训练性能的关系。实验结果中,在缓冲区大小为[200,260]区间内,本文的多周期自适应缓冲区队列长度分配算法的性能要优于通用的缓冲区队列长度分配算法,训练性能要比通用算法提高5.10%到6.27%之间。随着缓冲区资源大小从200个包进一步减少以及从260个包进一步变大时,两个算法具有相似的训练性能。所以在获得基本相等的训练性能的情况下,本文所提出的算法使用较少的缓冲区资源。通过对DNN训练处理器访存接口处的缓冲区队列的访存请求进行排序以及对缓冲区队列长度进行动态分配,较好地解决了访存效率和访存公平性问题,对设计DNN训练处理器提供了理论分析和实验数据支持,具有较好的学术意义和工程应用价值。
其他文献
随着我国城市轨道交通网络化进程的快速推进,轨道交通已逐渐发展成为了乘客出行的首选交通方式。然而,由于高峰期间的大客流会导致路网客流拥挤,这不仅会造成路网乘客服务水平降低,还会为地铁客流组织水平的提升带来一定的困扰。为了制定更具有针对性的客运组织措施以提高车站的客运组织水平,本文以早高峰期间城市轨道交通路网关键车站识别为研究目标,基于历史客流数据对未来路网和车站状态进行精准预测,并进一步评估拥挤时段
基于C#的城轨交通牵引供电动模仿真监控实验系统是以城市轨道交通牵引供电动态模拟仿真平台(简称动模仿真平台)为背景研发的城轨牵引供电综合监控系统。动模仿真平台旨在通过建立小功率轨道交通牵引供电系统实物模型,模拟实际的运行工况及故障状态。监控系统则通过将平台各类孤立的设备通过网络和集成软件有机结合,建成一个数字化、高效率、安全性强的综合监控平台。本文从动模仿真平台项目实际建设情况和功能需求出发,设计并
目标检测是计算机视觉领域的重点任务,面向无人机的嵌入式系统的目标检测是计算机视觉技术在实际工程中应用的重要场景。该场景下面临的小目标检测、嵌入式设备部署的问题,对实际应用造成了很大挑战。因此,如何设计一个能够更加精准的检测无人机数据集中的小目标,同时便于在计算能力偏弱、内存空间紧张的嵌入式设备上部署的模型,成为了人们研究的热点。为了解决面向无人机的嵌入式系统的目标检测任务,本文提出了一个针对小目标
车轴是地铁车辆走行部的关键部件之一,随着我国城市轨道交通的迅猛发展,十四五规划提出谱系化标准地铁的要求,对车轴的服役寿命和疲劳强度评估提出了更高的要求。本文以B型地铁客车为研究对象,基于线路动应力试验和有限元仿真对车轴载荷谱进行研究和应用分析,深入地研究车轴在各种运营和线路工况下的载荷分布情况,具体的内容如下:(1)轮轨载荷测试方案制定:建立轮对有限元模型,根据相关标准进行加载仿真并根据有限元结果
我国的汽车保有量在近几年呈现快速增长的趋势,为了解决停车位数量严重不足的问题,一种新型结构应运而生。装配式地下车库相比传统现浇车库有着生产周期短、施工效率高,节省人工劳动力等优点。本文以武汉市青山区工人村地下车库为工程试验背景,通过数值模拟方法研究了预制构件尺寸对结构的力学性能影响,分析了施工过程中预制构件的纵向拼接对结构及接头接缝界面的力学特性变化。主要工作及成果如下:(1)对装配式地下车库结构
随着移动通信技术的快速发展,各种小型化天线的研究与设计备受关注,特别是具有波束切换和扫描特性的天线得到了普遍的应用,因此对这类天线的研究具有重要的实用价值。特征模分析理论近年来被广泛应用于天线设计领域,其不依赖于馈电结构而反映天线的固有属性,具有清晰的物理意义,为天线设计提供了系统化、层次化的思路。本文结合特征模理论分别设计了两款具有波束切换和扫描特性的微带天线,研究内容主要包括以下两点:(1)基
在城市轨道交通中广泛应用的高架桥容易出现列车振动和噪声过大等问题,对居民的生活造成一定程度的影响。钢弹簧浮置板轨道作为一种常见的减振降噪结构,可以有效控制结构的振动和噪声。但钢弹簧浮置板轨道在高架桥上应用较少,其减振降噪性能研究还不够全面。为此,本文以高架桥为对象,通过数值模拟和现场实测的方法来分析采用钢弹簧浮置板轨道时的减振降噪性能,并研究相关预测方法。全文主要工作和结论如下:(1)介绍了结构振
随着人工智能技术不断发展,移动机器人代替人类完成任务已经成为大趋势。移动机器人作为一种仿生类机器人深受科研人员青睐,然而一些复杂、危险的任务对移动机器人的性能提出了高要求。移动机器人爬坡能力测试一直以来是机器人性能检测项目中的重要一项,传统的移动机器人爬坡能力测试选择使用人工修筑场地或者自然界的场地,在移动机器人身上加装各种传感器的方式进行测试,并且对机器人爬坡能力的评判没有一个固定的标准,当前移
近年来,许多特殊教育学校均对心理健康教育给予了高度重视,但在实际开展过程中仍然存在一些问题,一定程度上限制了心理健康教育优势的发挥。当前,虽然已有大部分教育工作者认为心理健康教育在特殊学校中发挥着不容忽视的作用,但也有个别工作人员认为特殊教育最主要的目的是培养学生的基本生活和学习技能。此外,虽然绝大多数特殊学校都有心理健康教育教师,但个别特殊学校的心理健康教育教师的专业水平以及学校日常的培训
期刊
随着近年来世界经济日新月异的发展,人口不断增长,随之而来的是出行压力的骤增,目前世界各国的交通运输系统仍是铁路运输占据最重要地位。出行交通工具的低污染、高速化、安全性成了追求的目标,而磁悬浮列车正是由于其速度快、爬坡能力强、环保舒适、噪音低等一系列优点,成为各国轨道交通领域的研究热点。磁悬浮列车从根本上改变了传统轨道交通车辆轮轨相互粘着的结构、很大程度上解决了机械磨损等问题,实现了列车和轨道间的悬