基于迁移强化学习的路由算法设计及实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:liu395152417
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网、云计算技术的发展以及各种应用和业务的增长,作为基础设施的网络系统日趋复杂,网络流量动态多变,使路由算法设计难度增大。传统路由算法依赖于研究人员对网络环境的建模,导致算法在复杂网络环境下的设计周期长,相关参数的设定和优化难度大,因此,如何根据网络环境特征设计最佳路由规则以均衡网络负载成为了重大挑战。基于强化学习的路由算法根据网络负载均衡状况自动探索最优路由策略,并利用深度神经网络拟合网络状态-路由策略的映射关系,自动生成相应的路由规则,提高了路由规则的生成效率。然而当前强化学习路由算法在路由决策空间较大时仍然存在神经网络收敛性不佳以及实际部署中数据采集成本高,计算开销大等问题需要解决。针对当前强化学习路由算法在决策空间较大时易出现神经网络收敛性不佳而引起的网络负载均衡问题,本文提出了Difference of the Equal-cost-path Bandwidth Utilization(DEBU)的强化学习路由算法。该算法基于分布式训练策略,利用多个独立的智能体协同训练,增加了算法的探索能力,避免神经网络陷入局部最优解,提高了算法的收敛性。同时,以最小化等效路径带宽利用率的差异为优化目标,使训练后的路由算法能根据网络流量状态动态调整不同等效路径的流量占比,网络负载更加均衡。仿真结果表明,采用所提算法在Fat-tree和随机生成的网络拓扑中均获得了更好的均衡效果。对比基于权重的强化学习路由算法和基于Deep Deterministic Policy Gradient(DDPG)强化学习的多路径路由算法,所提算法的吞吐性能分别提升了12%与8%。针对实际部署过程中网络流量数据采集成本高,强化学习路由算法的训练开销大的问题。本文提出了基于迁移学习的路由决策模型优化方案。该方案采用基于特征映射的迁移学习方法,通过缩小实验网络数据与目标网络数据的最大均值差异距离,使算法能够将实验网络中收集到的流量数据用于目标网络的模型训练中,在满足模型训练需求的同时降低目标网络中数据收集的成本。利用基于模型的迁移学习方法,通过模型参数的迁移,最大化保留算法在实验网络环境中学习到的知识,提升了模型在目标网络环境中的训练速度。仿真结果表明,迁移学习映射方法提高了不同数据集分布的相似度,减小了算法对目标网络数据量的依赖,网络的吞吐性能提升了8.7%。相比于随机初始化参数的方法,利用训练好的模型参数初始化神经网络可以实现13.7%的求解速度提升,且得到的模型具有更强的泛化能力。
其他文献
随着无人机技术的成熟,无人机越来越多地应用在社会经济活动中。其中,无人机搭载通信基站在空中组成无人机网络,辅助地面通信是无人机应用的重要场景。无人机网络可以对地面
结合面是机床结构零部件相互间的接触表面,其接触刚度是机床结构整体刚度的重要组成部分也是薄弱环节。结合面之间的接触,实质是粗糙表面微凸体之间的接触,由于实际工况的不同,相互接触的微凸体会产生一定的磨损,将会对机械结构和设备造成严重的危害,并且在外载荷的作用下,微凸体之间将会产生相互作用。通常情况下,机床的一些结合面往往会采用润滑介质来降低摩擦,减少磨损,提高机床的使用寿命。因此,研究润滑状态下结合面
粮食问题是关系国计民生和社会安定的重大战略问题。保障粮食安全对构建社会主义和谐社会,推进社会主义新农村建设具有重要的意义。国家粮食安全由区域粮食安全构成,而地方政
能源作为经济发展与社会生活的重要命脉,同时也是引发生存环境恶化问题不可忽视的因素。故研究能源发展以及探讨能源对于环境带来的压力是至关重要的,这也将为未来能源使用、能源替代等问题提供借鉴。本文基于我国能源发展与空气质量现状,使用2000至2017年相关数据进行分析。研究将能源发展主要分为能源总量、能源安全、能源结构、能源效率以及能源环保五部分,首先对面板数据进行聚类分析,该过程通过构造“绝对量”距离
在国际贸易保护主义不断抬头的背景下,促进我国高质量技术进步是打破国外技术垄断,实现经济优质平稳发展的主要途径。技术进步具有偏向性,实现技能偏向型技术进步是实现国内高质量技术进步的重要路径,而技能偏向型技术进步主要表现为技能溢价与技能需求结构变迁。为此,探究贸易政策不确定性对技能偏向型技术进步的影响有重要的理论与现实意义。本文构建一国两部门模型,系统探讨了贸易政策不确定性对技能偏向型技术进步的影响机
面对百年未有之大变局,我国国有企业迎来了巨大的发展机遇,同时也经受着严峻的时代考验。国有企业是我国国民经济的支柱,国有企业性质决定了它必须坚持党的领导,必须服务于中国特色社会主义事业,抓好国有企业党的建设对于加强党的执政能力、巩固党的执政地位、完成党的执政使命具有重大意义。安徽省交通控股集团是安徽省国有企业的典型代表,如何加强和改善安徽交控集团党的建设,实现其高质量发展是本文写作目的。安徽交控集团
群G关于其不含单位元1的子集S的Cayley图Γ:=Cay(G,S)称为正规的,如果G的右正则表示R(G)正规于Aut(Γ);称图Γ为G的图正则表示(GRR),如果R(G)=Aut(Γ)且Γ是无向图.本文主要运用代数图论的一些研究方法和技巧,结合群论知识对二面体群上的小度数Cayley图的相关性质以及该群的CI性进行了研究.在本文第三章中,重点研究了32p阶二面体群G=<α,b | α16p
碳点(Carbon dots,CDs)于2004年首次被科学家发现,是一种优越的光致发光材料。尽管碳点受到越来越多的关注,但是面临的问题也很明显,其中:(1)多数碳点局限在短波长范围,荧光量子效率多数较低。(2)长波长发光碳点,尤其是红色发光碳点的欠缺,阻碍了碳点材料在生物成像和WLED、光电显示等领域的推广使用。(3)碳点的磷光现象近几年成为研究热点,但产率依旧偏低、余辉时间等无法调控。本论文通
本文通过跨学科研究,希望对货币的起源及本质给出一种“社会技术”角度的解释,进而以马克思主义理论为依托,对当下的货币权力维度批判做出初步的尝试。第一章简要地回顾了西方货币思想史和当代货币理论中信用货币的传统,从货币起源和货币运作机制两个层面分析了巴本、麦克伦德、克纳普、凯恩斯、雷、孙国峰等的观点。他们基本上都认为货币本身不具有内在价值,而是一种在交易时记录信用、清算债务的经济技术。货币之所以被接受并
积分视场单元(Integral Field Unit,IFU)可以通过单次曝光同时获得目标的三维光谱信息。具有视场大,空间分辨率高,传输效率高,体积小的优点,因此在天文观测中得到了广泛的应