基于深度强化学习DNN推理业务调度系统研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:hwangh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在过去的几年中,DNN已被证明是解决许多实际问题的通用有效工具,使用DNN的应用数量呈爆炸式增加。DNN推理业务已开始成为云计算环境所提供的服务之一,低延迟,高准确度的响应质量成为服务提供者的目标。受深度强化学习在AI领域的良好变现,人们也尝试用深度强化学习方法来实现DNN推理业务系统的高质量响应。本文主要研究以下几个问题:1.基于深度强化学习的DNN业务调度。如今,这些问题中的大多数都是通过精心设计的启发式方法解决的。仔细研究该领域的最新研究可以发现,典型的设计流程是:(1)提出了巧妙的启发式方法来简化问题模型;(2)认真测试和调整启发式方法,以在实践中取得良好的性能。如果问题的某些方面(例如工作量或兴趣度量)发生变化,则通常必须重复此过程。而深度强化学习的深度神经网络因为具有强大的特征提取能力,无需人为建立模型,只需给系统输入观察,并制定目标,强化学习的代理就会朝着目标的方向学习出理想的策略。即使某些方面变化,强化学习也不需要重新建模。本文使用了DQN,DoubleDQN,DuelingDQN,AC,A3C等常见的深度强化学习来解决DNN推理业务的调度问题。DNN请求的响应质量是由处理延迟和结果精准度表示的函数,范围在0-1之间,结果显示所有的方法在测试数据上都能达到0.9以上的请求响应质量。2.基于深度强化学习的DNN推理业务调度的在线学习问题。在问题1的研究中发现,当训练已经收敛的强化学习代理应用于一些与训练环境差别很大的新环境时,由于训练时并未学习到这些特征,导致在测试时结果并不好。然而,在实际应用中,环境不断变化时很正常的,所以必须要让代理学习在线学习。本文首先研究了A3C和DQN的在线学习,基于任务在短时间内是连续的,使用短时间内的小批量学习,代理用前面短时间内的经验进行训练,然后应用于后面的任务。这种方法虽然能达到很高的请求响应质量,但是训练所需的时间却很长。然后本文使用基于模型的元学习方法,这种方法是直接对动力系统建模。模型对参数的变化很敏感,使用少量的训练数据就可以快速收敛,结果显示虽然请求响应质量不如前者,但是模型很稳定而且使用时间也大大减少了。3.基于用户体验的DNN推理业务调度问题。以前的工作都没有区分用户,也不考虑用户的公平性问题,本文加入用户标签,考虑用户公平性。本文首先在服务器端考虑用户公平性,依然使用深度强化学习方法,并在代理的目标中加入了用户公平性的指标,但是结果并不理想,原因是这种方法会产生很多无用的经验,值得学习的经验相对较少,导致代理学习困难。所以本文将这一问题与下一问题结合在一起考虑。4.基于深度强化学习的多代理学习。将代理由服务器端移到客户端,研究多代理学习问题。越来越多的手机端开始具有机器学习的能力,机器学习终端化已成为趋势,所以本文考虑将代理放置在客户端考虑,并将问题3也在多代理学习方法中解决。本文使用多个独立的AC代理独立学习,因为现实中,每个用户只能得到自己的信息是合理的。每个代理输入只有自己能看到的状态,并输出自己的决策,但是每个代理的目标是自己的请求响应质量最大化以及关于所有用户的公平性指标最大化。结果显示这种方法不仅能让用户的请求响应质量得到保证,而且用户之间的公平也得到了保证。
其他文献
杨树是世界上种植面积最为广泛的经济林木之一,它不仅被广泛应用于经济、生态和环境保护等领域,而且作为模式树种应用于木本植物遗传转化和分子机制研究。杨树作为重要的速生树种,是木材的主要来源。木材的主要成分包括木质素(Lignin)、纤维素(Cellulose)和半纤维素(Hemicellulose),其中木质素是影响木材材性关键的成分之一。然而杨树中木质素生物合成机制尚不完全清楚。因此,阐明杨树中木质
学位
木材作为主要的建筑、家具和生物质能源材料,广泛应用于工业生产与人类生活。木材主要由茎的次生木质部发育而来,而在细胞层面上则主要由植物细胞壁组成。而植物细胞壁则主要由初生壁和次生壁组成,其中次生壁积累的生物质占植物生物质总量的绝大部分,所以理解和研究植物次生细胞壁生物合成机理,不仅对植物次生发育的基础研究具有重要的科学意义,而且为选育符合人类生产和生活所需的林木新品种打下坚实的基础。  近十年的研究
学位
结肠癌发病率和死亡率在世界范围内居高不下,也是我国最常见的消化道恶性肿瘤之一,因此阐明结肠癌发病的分子机制对临床诊断和治疗结肠癌具有一定的启示作用。由DNA结合蛋白抑制因子(Inhibitor of DNA binding1,ID1)基因转录翻译出的Id1蛋白在多种肿瘤组织中异常高表达,与癌症的侵袭性及患者不良临床预后相关。增强子是指能够增强启动子活性从而增加基因转录频率的DNA序列,近年来大量研
学位
10万立方米变壁厚浮顶储罐广泛用于石油和化工领域的油气储存,为便于储存和运输,大型储罐多建造在沿海沿江地区,这就会导致储罐产生不同程度的沉降变形,其中尤以罐周的不均匀沉降对储罐结构的影响最为严重。研究使用先进的在线监测技术对大型储罐罐周不均匀沉降进行实时监测,获得了现场实际沉降数据,结合新提出的储罐基础沉降预测方法,利用傅里叶级数展开对沉降数据进行处理分析得到谐波拟合曲线,并利用有限元分析方法,计
学位
能源与环境危机推动了内燃机代用燃料的发展。天然气由于来源广泛、使用方便得到了较为广泛的应用,但是其较慢的火焰传播速度限制了天然气发动机热效率的进一步提升。氢气由于火焰传播速度快的优势被应用于与天然气的掺烧,天然气-氢气掺混燃料逐渐成为研究热点。但是现阶段我国面临的氢气制备成本及运输储存安全性等问题限制了其作为内燃机代用燃料的广泛应用。在发动机上通过废气余热催化裂解甲醇,不仅能够解决氢气大规模制备、
学位
连续旋转爆轰发动机具有结构紧凑、热力循环效率高、自增压、推重比大等优点,在航空航天推进系统中具有广阔的应用前景,近年来成为全世界范围内的研究热点。本文以火箭式连续旋转爆轰发动机为研究对象,分别以气态氢气和液态汽油为燃料,空气和富氧空气为氧化剂,通过实验和数值模拟,对连续旋转爆轰发动机爆轰特性和推力性能展开研究。  为了研究H2/air连续旋转爆轰波的起爆与传播特性,在不同工况下开展了一系列实验研究
PN结二极管是一种常见的简单器件,同时也是研究其他半导体器件的基础,大部分PN结二极管模型都只有解析模型而没有电路实现,另外模型无法同时满足复杂性和准确性。本文综合半导体物理、电网络理论并结合目前的研究热点-分数阶微积分,通过用分数阶矢量匹配法拟合全电流方程,并结合频域非线性最小二乘法优化非同元次项系数,进而推导出一种新的PN结长基二极管分数阶模型,通过求解超越方程和用反向恢复法提取两个模型参数。
学位
我国西南地区已建成了多个超千万千瓦级水电基地,形成了跨流域、跨电网互联的超大规模水电系统,呈现出梯级规模大、巨型电站多、集中程度高、送电范围广、水力电力耦合紧密等不同于常规水电系统的独特特征,给其调度运行带来了巨大挑战,具体表现为:1.西南水电站群的发电能力远超当地电网的负荷水平,需要远距离跨省区输送至多个电网进行消纳、响应多个电网的负荷需求,面临电网负荷水平差异下的多电网调峰问题;2.西南水电站
AlGaN作为直接带隙的宽禁带(3.4eV-6.02eV)半导体材料,具有优秀的光电性质、高热稳定性和热导率、优良的介电特性和高机械强度,可以用来制备高性能电学器件和光电器件。纳米材料由于内部晶体周期性被破坏,在光电等邻域,表现出了比体材料更加优秀的性质。目前, AlGaN纳米材料及相关器件仍处于研究阶段,各种工艺下制备的AlGaN纳米材料的质量有待提高,其生长机理和模型还需要进一步地研究和完善。
学位