移动边缘计算环境下基于深度强化学习的多目标任务卸载策略研究

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户：qwm777

【摘要】

：

【作者】

：

王艳平

【机构】

：

内蒙古大学

【出处】

：

内蒙古大学

【发表日期】

：

2022年01期

【关键词】

：

移动边缘计算工作流卸载多智能体深度强化学习算法完成时间能耗

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,随着移动互联网的迅速发展,移动用户的规模持续高速增长,传统的移动网络架构已经难以为移动用户提供高质量的网络服务。在此背景下,一种新型的网络架构—移动边缘计算被提出,以期提升网络的服务品质,从而满足移动用户的服务需求。移动边缘计算通过在网络边缘部署服务器来就近处理终端用户的服务需求,借此降低网络延迟与提升移动网络的服务品质。移动边缘计算面临的一个重要问题是:如何对计算任务进行高效地卸载。现有的面向任务卸载的研究工作侧重于独立性任务,而非依赖性任务,独立性任务的卸载策略无法解决工作流环境下任务的数据依赖性与时序依赖性所带来的挑战。鉴于此,论文研究移动边缘计算环境中面向工作流应用的多目标任务卸载机制,目标是最小化工作流的总体完成时间和用户设备的总能耗。具体来说,本文的主要贡献如下:（1）本文将移动边缘计算环境中多工作流卸载问题建模为多目标优化问题,该优化问题综合考虑工作流的总体完成时间和用户设备的总能耗,通过探究工作流的完成时间与用户设备能耗的变化关系,以便在工作流完成时间与用户设备能耗之间做出有效的折衷。（2）本文将构建的优化问题转化为部分可观察马尔科夫博弈模型,并设计与实现了一种基于多智能体深度强化学习的多工作流卸载算法来获得部分可观察马尔科夫博弈模型的最优策略。该算法采用集中式训练分布式执行的方式,对每个智能体训练出一个需要全局信息的评论家和一个需要局部信息的行动者,通过协调多个智能体之间的活动来获得最优的卸载策略。（3）本文通过大量仿真实验评估了所提出的多目标工作流任务卸载算法的有效性与先进性。实验结果表明,所提算法相较于单智能体深度确定性策略梯度算法平均奖励值提升了50%,与其它先进卸载算法相比,本文所提算法在最小化工作流的总体完成时间和用户设备总能耗方面表现最好。

其他文献

基于深度强化学习的三体对抗博弈策略研究

针对三体对抗场景中的攻防博弈问题，提出了基于深度强化学习的智能博弈策略，包括适用于进攻弹的攻击策略以及适用于目标/防御弹的主动防御策略。在经典三体对抗研究的基础上引入强化学习算法，提高了算法训练的目的性，同时在奖励函数设计中考虑了攻防对抗双方的奖惩条件。应用深度强化学习算法对攻防双方智能体进行训练，并得到收敛的博弈策略。仿真结果表明，通过训练获得的进攻弹的攻击策略能够根据战场态势合理规划机动行为，

期刊

三体对抗深度强化学习智能博弈攻防对抗主动防御零控脱靶量奖励函数塑形

制度结构与行动过程:中国志愿服务组织研究

志愿服务正成为推动中国社会转型、参与社会治理的一股重要力量，其志愿性、公益性和无偿性的特征也使该议题在新时代情境下具有持续的生命力。因此，本文以志愿服务组织为研究对象，梳理传统志愿服务组织研究的脉络和线索，对比“自上而下”与“自下而上”两类志愿服务组织在制度结构下的形成路径、讨论视域及其行动过程中的组织逻辑与动员路径的特点，并讨论其在社会治理中所发挥的作用、功能。在此基础上反思信息时代和风险社会双

期刊

制度结构行动过程自上而下自下而上志愿服务组织

基于深度强化学习的无人机辅助无线传感网络最优传输策略的研究

下一代通信网络的蓬勃发展对于高质量通信服务提出了前所未有的要求。凭借着灵活部署和视距传输等诸多优势,无人机通信有望在未来的无线通信系统中扮演关键角色。总结以往文献,空地一体化网络中的无人机应用研究,可根据无人机在网络中的地位大致分为两种场景:无人机辅助的无线网络通信场景,其中无人机作为部署在空中的基础设施;以及蜂窝网络辅助的无人机通信场景,其中无人机作为获得服务的空中用户。本文考虑将两种主流研究思

学位

无人机数据传输无线传感网络资源分配深度强化学习能量收集调度策略

一种基于深度强化学习的协同通信干扰决策算法

针对协同电子战中跳频通信干扰协同决策难题，通过构建“整体优化、逐站决策”的协同决策模型，基于深度强化学习技术，设计了在Actor-Critic算法架构下融合优势函数的决策算法，并在奖励函数中嵌入专家激励机制以提高算法的探索能力，采用集中式训练方法优化决策网络，使算法能够输出资源利用率最高的干扰方案，并大幅提高决策效率.仿真结果表明，相比于现有智能决策算法，本文算法给出的干扰方案能够节约8%干扰资源

期刊

深度强化学习通信干扰决策干扰资源分配优势函数专家激励

基于深度强化学习的智能干扰方法研究

随着人工智能技术的发展，智能终端已经可以通过频谱感知、通信效果检测分析等方式智能地改变通信手段，进而实现高效率抗干扰，这给传统干扰带来了巨大挑战。而深度强化学习在复杂场景中的探索效率高，面对高难度任务的能力强大，在军事干扰领域应用前景广阔。基于此，介绍深度强化学习、智能干扰方法这两个基本问题的研究现状和存在的难点问题，总结并提出未来基于深度强化学习的智能干扰方法的研究前景和技术展望。

期刊

数字通信深度强化学习智能干扰决策

基于深度强化学习的对手建模方法研究综述

深度强化学习是一种兼具深度学习特征提取能力和强化学习序列决策能力的智能体建模方法，能够弥补传统对手建模方法存在的非平稳性适应差、特征选取复杂、状态空间表示能力不足等问题。本文首先将基于深度强化学习的对手建模方法分为显式建模和隐式建模两类，按照类别梳理相应的理论、模型、算法以及适用场景。随后介绍基于深度强化学习的对手建模技术在不同领域的应用情况，最后总结亟需解决的关键问题以及发展方向，旨在为基于深度

期刊

深度强化学习对手建模博弈论心智理论表征学习元学习

青年理想信念教育常态化制度化的三维探析

青年是一个充满生机、富有活力的群体,实现中华民族伟大复兴需要青年发挥中流砥柱的作用。青年理想信念的培育与坚定,不仅关乎青年个人成长成才,也关涉国家富强、民族振兴和人民幸福。青年理想信念教育常态化制度化是新时代条件下理想信念教育面临的重要课题。当前高校应从教育引导同实践养成共发力、健全制度与加强治理同步、统筹谋划与分类引导相结合、守正与创新相融合四个方面形成青年理想信念教育的强大合力,不断提高青年理

期刊

青年理想信念教育常态化制度化

基于深度强化学习的高速飞行器攻防博弈

针对高速飞行器与拦截器的攻防博弈问题，研究了一种基于双深度Q网络（DDQN）的改进算法。该算法针对经典DDQN样本利用效率低的问题，设置多个经验池，并将一轮对抗中Q值的累积时序差分误差（TD-error）与累积奖励值相结合，通过模糊推理计算样本存储至不同经验池中的概率。再根据累积奖励的时序差分误差设计积分抽样器，从不同经验池中抽取样本进行训练。模型的奖励函数设计原则为在成功突防的基础上减少自身机械

期刊

高速飞行器拦截器改进DDQN模糊推理攻防博弈

间接挤压铸造成形水雷壳体用ZM5镁合金隔板件研究

镁合金具有密度低、抗震性能好、比强度高、比刚度高、可回收性好等诸多优异性能,在航空航天、汽车零部件和国防军工等领域有很大的应用前景。但是传统铸造工艺制备的镁合金存在因技术特点导致的固有铸造缺陷,难以生产不同功用的结构件。挤压铸造是一种近净成形技术,用于制备镁合金产品可以减少宏观缺陷并获得良好的力学性能。挤压铸造技术按照成形工艺的不同分为直接挤压铸造和间接挤压铸造,间接挤压铸造工艺的基本原理是通过冲

学位

间接挤压铸造ZM5镁合金仿真模拟正交试验热处理

牢固树立政治机关意识推进党建业务深度融合

＜正＞习近平总书记在中央和国家机关党的建设工作会议上明确提出,中央和国家机关必须牢固树立政治机关的意识,要带头做到"两个维护",着力推进中央和国家机关党的政治建设。近期召开的中央和国家机关党的工作暨纪检工作会议再次强调要始终把"两个维护"作为党的政治建设的首要任务,扎实开展强化政治机关意识教育。近年来,国家卫健委规划司党支部认真贯彻落实全面从严治党的要求,牢固树立政治机关意识,坚持以党的政治建设为

期刊

移动边缘计算环境下基于深度强化学习的多目标任务卸载策略研究

与本文相关的学术论文