基于深度强化学习的移动边缘计算中在线任务卸载研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户：wuwu245

【摘要】

：

【作者】

：

梁斯硕

【机构】

：

电子科技大学

【出处】

：

电子科技大学

【发表日期】

：

2021年01期

【关键词】

：

移动边缘计算计算卸载在线调度再生能源收集资源分配深度强化学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

现如今的移动设备端产生的应用日渐复杂,需要更强的计算能力来处理,移动边缘计算（MEC）为处理这种任务提供了有效的途径。在移动边缘计算中的任务的卸载和资源的分配问题一直是其中的关键问题。若能实时地做出正确的计算任务卸载决策,合理分配好网络资源和计算资源,对于提升移动边缘计算的服务性能,提高用户体验具有重要的意义。近几年来,强化学习技术不断发展,它在MEC中的应用备受关注。由于MEC场景下环境的不确定性因素较多,而强化学习又可以在不需要事先知道环境先验知识的条件下,与环境进行交互得到反馈奖励,从而学习到比较好的动态决策方案。深度学习可以利用强大的神经网络对复杂的环境进行特性提取。深度学习和强化学习相结合得到的深度强化学习,同时具备了深度学习的强大感知能力和强化学习的探索交互能力,可以用来解决环境比较复杂的问题。本文主要采用深度强化学习方法,解决了在移动边缘计算的场景下,在线任务的计算卸载和资源分配问题,本文的研究工作总结如下:1)针对非抢占机制的计算服务器,本文提出了一种基于深度Q网络（Deep Q Net,DQN）的在线任务的卸载决策和非抢占计算资源分配方案,同时进行任务的调度,让更多任务能够满足其自身的截止时间。仿真结果表明,在大任务紧跟小任务的任务非均匀到达的特定模式下,提出的预约未来资源算法（DQN based Reservation of Future Resources algorithm,RFR）在任务成功率上比启发式对比算法高12%。在任务均匀到达的模式下,设置合适的奖励函数参数,RFR算法可以用相对较低的能耗来让更多任务的满足自身的截止时间。2)针对具有再生能源收集装置的移动用户,具有不同硬截止时间的任务情况下,提出了针对硬截止时间的基于DDPG的动态分配资源算法（DDPG based Dynamic Allocation algorithm,DA-DDPG）。仿真结果证明DA-DDPG算法在面对不同的截止时间且截止时间不大,延迟奖励不久的场景下,能够合理地决策任务,分配电量,来降低任务丢弃率和平均完成时间。再针对软截止时间的场景,提出了应对软截止时间的DA-DDPG算法在面对低电量或者差信道环境的时候,性能优势比较明显。

其他文献

基于知识表示的迁移强化学习算法

机器学习的一个核心主题是顺序决策,这是要求在不确定的环境中依据决策规则选择要执行的一系列动作,以实现某些目标的任务。作为机器学习的重要子领域,强化学习提供了一种解决这类任务的正式框架。然而,解决比较复杂的任务时,它所需要的样本数量难以忍受;另外,当任务发生改变时,原来的解决方案就无法应用,学习必须要重新开始。这些问题促使我们利用现有知识来改善强化学习过程。近年来,迁移学习作为一种利用先验知识来加速

学位

强化学习迁移学习知识表示知识迁移

基于梯度的神经网络结构搜索算法优化

深度神经网络由于具有强大特征提取和表征的能力,已经在计算机视觉、自然语言处理、智能决策等方面展现了卓越的性能。近年来,深度神经网络的设计引起了研究人员的广泛关注,各种高性能和高效率的神经结构不断涌现。但是手工设计一个神经网络需要大量的专家经验和反复的实验验证。因此,神经结构搜索方法被提出来在给定的任务上自动设计神经结构。基于梯度的one-shot神经结构搜索方法在高效实现结构搜索的同时,还具有不错

学位

神经网络结构搜索one-shot梯度

高速四通道光纤FP腔传感信号解调系统研究与软件实现

在高压变电设备的放电检测、航空发动机结构无损检测等领域的超声波探测应用中,往往要求超声波传感器需要具备体积小、质量轻、前置无源、抗电磁干扰、耐高温高压的特性。本论文针对光纤MOEMS（Micro-Opto-Electro-Mechanical Systems）超声传感器的信号解调需求,研究了一种基于光纤EFPI（Extrinsic FabryPerot Interferomter）传感器的高速四通

学位

法布里-珀罗干涉光纤EFPI传感器LabVIEW超声波

基于深度学习的非合作信号解析技术研究

非合作信号解析技术已广泛应用于电子信息对抗等领域。非合作的接收机通过这种技术利用截获信号取得发射机的一些信息,以实现破译敌方情报或干扰敌方通信等目的。在现代数字通信系统中,数据通常以帧为单位进行传输。合作方的接收端首先会采用适当的算法并结合帧结构的信息来获取帧同步。然而这些对于非合作的接收机来说是未知的,所以其需要利用截获信号对帧结构进行识别。在获取帧同步后,倘若非合作的接收机想要进一步获取数据部

学位

盲识别信道编码帧结构深度学习循环神经网络卷积神经网络

用于建筑机器人的室内三维建模及外传感技术研究

对于室内环境三维模型构建,目前常规方法是使用三维激光扫描仪来实现,但是三维激光扫描仪不仅价格昂贵而且体积较为庞大,同时构建三维模型耗时较长。视觉同步定位与地图构建（SLAM）技术具有精度高、速度快、系统体积小的特点,本文对基于深度相机的视觉SLAM算法进行了深入研究学习,并将视觉SLAM技术结合建筑抹灰机器人应用于建筑室内环境建模,解决了建筑室内三维整体模型实时构建问题,并且对得到的三维模型进行后

学位

SLAMORB特征匹配关键帧非线性优化

多模块网络的不同连续吸引子研究

生活在当下,神经网络对于我们而言一定算不上陌生。无论是作为学者还是工程师,在他们的研究中一定会发现神经网络的身影。医学领域、军事领域甚至金融领域均采用了神经网络技术,不难看出它具有很强的适用性。将耦合的网络模型同单一的网络模型进行比较可以发现,前者具有更高的生物可靠性,更贴近真实神经系统的组成。有关于这种模型的研究正在逐步展开,现在已有大量实验证实它能够高度概括大脑对信息的并行处理。另一方面,无论

学位

连续吸引子耦合神经网络环形网络钟形连续吸引子

基于图神经网络的推荐算法研究

当下,网络短视频、电商广告、新闻资讯等信息量迅猛增长,如何构建更精准、更个性化的推荐系统已成为各大电商平台、音视频门户网站关注的焦点。而推荐系统中最核心的部分在于其使用的推荐算法,算法的优劣直接影响推荐系统的好坏。虽然诸如协同过滤等传统推荐算法已经历了多年的发展,但面对当前越来越多的稀疏性与冷启动问题时,其较难以从根本上解决。而另一方面,由于近年来图神经网络的发展以及其与推荐系统交互图结构的高度契

学位

推荐系统图神经网络冷启动双任务学习

基于视频与惯性传感器融合的室内定位技术研究与实现

基于位置服务（Location Based Services,LBS）在无人驾驶、智能交通、应急救援以及智慧城市等领域上发挥着十分重要的作用。对于室外环境,美国的GPS系统、欧洲的伽利略系统以及中国的北斗卫星系统已经可以提供很好的位置信息,由于卫星信号容易受到建筑物遮挡,这些成熟的定位系统在室内环境的定位性能不是十分理想。随着社会的发展,人们对室内定位的需求也日益增多,定位方案也从单一定位技术逐渐

学位

监控视频手机惯性传感器轨迹匹配室内定位

基于低损耗光纤的随机光纤激光点式传感系统研究

近年来,电网事故在我国各个地区相继发生,这不仅会扰乱人们的正常生活,还会给国家经济带来不可估量的损失。为了减少电网事故的发生,需要对输电线运行状态进行有效监测。基于随机光纤激光器的点式光纤传感系统具有抗电磁干扰、信噪比高、长距离传感等优势,极其适合应用于电网系统中。然而,随着国家电网规模的扩张,如何进一步提升点式光纤传感系统的性能是今后需要解决的问题。本文在特种传感光纤光缆联合实验室的支持下将一种

学位

低损耗光纤普通单模光纤随机光纤激光器光纤传感

多通道光纤声波传感系统及降噪算法研究

声波是信息的重要载体,声波传感技术在石油管道泄漏、设备健康监测、医疗诊断等各个领域有巨大的应用需求。传统的声波传感器多为电子式声波传感器,而随着对光纤传感技术研究的深入,各种光纤声波传感器得到了快速发展。同电子式声波传感器相比,光纤声波传感器体积小、重量轻、检测灵敏度高、抗电磁干扰能力强,能够在极端恶劣环境下使用,并且,光纤较小的传输损耗使得光纤声波传感器能够实现高质量的遥测遥感。近年来,各种原理

学位

光纤法布里-珀罗声波传感器谱减法小波阈值去噪非平稳噪声

基于深度强化学习的移动边缘计算中在线任务卸载研究

与本文相关的学术论文