基于深度强化学习的多用户移动边缘计算任务卸载策略优化

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:sunfeaml
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着物联网、5G等技术的发展,每日新增的数据量呈指数式爆炸性增长,这些来自于各种新兴应用场景如远程医疗、智能汽车驾驶、智慧城市等方面的数据,对服务的URLLC(Ultra Reliable Low Latency Communication,超可靠低延迟通信)提出了更为严苛的要求。为更好的满足这些要求,移动边缘计算(Mobile Edge Computing,MEC)应运而生。而移动边缘计算中一个十分重要的环节就是任务卸载。面对如今大数据,低时延,高可靠的服务质量保证等要求,任务卸载策略的选择、效率显得尤为重要。因此,如何选择任务卸载策略,如何权衡卸载中时延和能耗的问题,以及对于资源有限的一个系统中,如何使各部分计算量均衡,即负载均衡,也就成了一系列亟待解决的问题。本文介绍了移动边缘计算的发展历程以及权衡时延能耗、负载均衡等方面的研究现状。并着重介绍了如何使其自适应的权衡这些方面。为达到可以自适应的效果,本文结合了深度学习、强化学习以及策略梯度提出了基于深度强化学习(Deep Reinforcement Learning,DRL)的DQN-HDCS算法和MOPERDQN算法。论文主要工作如下:(1)研究了由多个移动用户组成的MEC系统,将任务到达过程与无线信道都设定为随机,以此来计算任务卸载策略的不同选择对时延和功耗的长期平均计算成本,并通过算法使其达到最小值。为此,根据其下一状态只与当前状态有关的特点针对次场景建立了马尔可夫决策过程,设计了一种全局自适应的算法,基于深度强化学习的去中心化自适应计算任务卸载策略。具体来说,就是为处理连续的动作空间,且要动态作用于整个系统,根据系统中每个终端所提供的反馈,独立高效学习如何进行最优任务卸载策略选择。根据仿真实验提供的结果,可以看出在多用户的场景中,通过在每个用户处不断学习,系统可以较好的权衡时延与功耗,达到最小值。(2)研究了在多用户异构MEC网络情况下系统中各计算设备的的负载均衡问题。由移动用户、边缘计算节点与云数据中心三层构成,每层都包括了异构的计算设备。对该场景进行负载均衡建模,智能体agent接收来自各个节点的负载反馈并独立学习,针对该环境复杂性高所导致的奖励稀疏问题,引入了一种特殊的经验回放方式,即“失败是成功之母”,将未达目标状态的动作也给予一定奖励,从而加速智能体的学习效率,为其指引正确的学习方向,以达到全局的负载最优策略,以此提出基于事后经验重放的MOPERDQN算法。实验表明,这种自适应的全局动态学习算法提高了学习速率,且均衡了各个计算节点的负载。
其他文献
开放车间调度问题是一种典型的组合优化问题,在制造业、交通和物流等领域被广泛研究。这类问题具有复杂的约束和巨大的解空间,因此求取最优解十分困难。目前,传统算法大都基于特定规则或局部搜索的策略来获得次优解,只适用于解决特定分布的问题,具有较大的局限性。近年来,深度强化学习在解决各类复杂决策问题中展现出较强的适用性和可扩展性,因此,本文基于深度强化学习求解开放车间调度问题。论文的主要工作如下:本文设计并
市政排水管道在城市建设中的应用逐渐增大,但由于地下空间不断开发,管道破损沉降,容易发生管道塌方、地面塌陷等严重情况。为了保障排水管道正常工作,市政工作井然有序,对排水管道进行应急检测具有重要意义。由于排水管道管径大小不一以及管内存在大量易燃易爆的有毒气体,人工下井作业十分困难,因此采用机器人下井完成管道应急检测是十分重要的。目前已有的管道检测机器人大多数只适用于新管道验收,很难适应排水管道这种恶劣
图像描述(Image Captioning)是指计算机对给定图像自动生成简洁的自然语言描述。计算机图像描述能够将图像信息转化为文本信息,从而实现信息不同模态之间的转换,在图像索引、智能教育、(盲人)视觉辅助等各方面具有广阔的应用前景。图像描述是一个多模态学习问题,不仅需要准确地识别对象、属性并捕捉到它们之间的关系,还需要考虑语法的准确性和语义的多样性,因此图像描述的实现需要结合计算机视觉、自然语言
在传统多标记学习算法中,用于训练的数据集中的每个样本被精确标注了多个相关标记,但由于近年来数据量急剧增长,精确数据集在现实情况中很难获取。现有的多标记学习算法对于不精确数据集的考虑通常是针对标记缺失的情况,然而在很多情况下数据集中的一个样本只是被大致分配了一组标记,该组标记中除相关标记以外还有一些不相关的噪声标记。为了解决多标记学习中的标记冗余问题,近年来提出了一个新的学习框架,即偏多标记学习框架
多模光纤内部不同模式的干涉会在光纤端面处形成具有复杂亮斑分布的光斑图样。由于光斑的形成与多模光纤的结构以及所处环境等具有密切联系,因此可以利用光斑的检测和处理对光纤所处状态进行传感。随着光斑图样检测技术与图像处理技术的日益发展,基于光斑的光纤传感器已经在多个领域表现出其独特的优越性,具有很高的研究价值。本文对多模光纤在不同弯曲半径下的输出光斑进行了仿真及实验研究,基于深度学习的方法,通过对多模光纤
多能谱CT(Computer Tomograph,CT)利用光子计数探测器直接将光信号转化成为数字信号,能够获得不同能量段的成像。多能谱CT可以利用K-边成像降低辐射或造影剂剂量,还可以利用多能谱特性提高软组织对比度。然而多能谱CT图像在物质浓度较低时,物质与背景很难被区分开来;当两种原子序数很接近的物质距离很近时,在成像图中会混在一起而难以区分。超分辨率图像重建旨在提高图像分辨率的同时解决物质与
相比传统的直流电机,永磁同步电机(PMSM)简化了结构,降低了成本,提高了控制性能,在高精度伺服控制领域得到了广泛应用。摩擦力矩干扰是影响永磁同步电机伺服系统精度和鲁棒性的重要因素之一。利用现代干扰补偿控制理论,设计非线性摩擦干扰控制器,补偿永磁同步电机伺服系统的非线性摩擦力矩干扰,提高伺服系统的位置和速度跟踪性能,具有重要意义。针对永磁同步电机位置伺服系统中存在的摩擦力矩干扰,本文结合分数阶控制
随着物联网技术和产业的飞速发展,催生了许多新兴的物联网应用场景,例如水下环境的信息监测、野生动物信息采集、山区道路危险预警等。现有的无线通信网络在缺少基础设施的场景下很难有效运行,而机会网络利用网络节点之间的相遇机会进行数据传输,无需基础设施,可以更好的适应这些新兴应用场景。由于无线网络节点之间搭建的临时通信网络是高度动态且部分连通的,节点之间可能不存在完整的连接路径。机会网络采用“存储-携带-转
得益于弹性按需的服务模式和允许网络广泛访问的特性,云服务在互联网上的数量呈爆炸式增长,导致云服务市场中充斥着大量功能相似但服务质量(QoS)不同的同质化云服务。在这种情况下,用户很难确保所选择的云服务能够在特定环境中满足自身的完整需求。因此,结合推荐技术,对QoS进行准确和个性化预测成为了帮助用户选择与自身匹配程度较高的云服务的必要条件。近年来,基于QoS预测的云服务推荐在服务计算领域持续引起关注
近年来,智能决策与控制技术得到了突飞猛进的发展,极大的提升了机器人应对复杂实际问题的能力,并逐渐发展为国家层面的战略。电脑鼠是一种嵌入式移动机器人,能够自主探索未知迷宫,并实现最短路径冲刺。为了在狭小复杂的迷宫中高速运行,电脑鼠对控制与决策的性能要求较高,长期处于机器人领域的研究热点。强化学习技术能够让智能体从环境中总结规律,以“试错”的方式提升决策性能,是一种重要的机器学习方法。本文针对迷宫探索