基于Deep-Q-network的多智能体强化学习的多目标工作流调度方法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:dongyemeigui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
云计算灵活的资源配置和现收现付的付费模式为执行大规模的科学和经济问题提供了一个高效、经济的分布式计算平台。大规模的科学和经济问题通常被建模成工作流模型,这些工作流上的应用程序不断增长的数据和计算需求使如何在云计算平台上高效的调度和部署这些应用程序的研究受到广泛关注。从用户的角度,最大完成时间和总花费是两个重要的服务质量指标,他们希望工作流应用程序可以尽可能快的完成,同时期望降低付出的总花费。然而,如何解决IaaS云环境下的多个工作流调度问题仍存在各种挑战,特别是针对多个相互冲突的目标的最优调度问题,仍有待妥善解决。现有的云工作流-多目标优化调度方法在很多方面仍然存在局限性,如在处理动态调度问题时编码受到先验或后验专家知识的限制,严重影响调度的性能。针对上述问题,本文重点研究了在不需要大量的专家知识和人为干预的情况下,同时优化最大完成时间和总花费的多工作流调度方法。在本文中,我们首先分析了云工作流调度问题的最小化最大完成时间和总成本的双目标优化问题的形式化建模。为了优化多个工作流的最大完成时间和用户成本,我们考虑了一个以工作流应用程序和异构云主机的数量为状态输入,以最大完成时间和成本为奖励的马尔可夫博弈模型,通过合适的选择机制以及奖励函数的设计使博弈模型的解收敛于相关均衡。然后本文在多智能体学习场景中运用Deep-Q-network模型求解该马尔可夫博弈模型,以指导IaaS云上的多工作流调度。该方法将两个优化目标抽象成两个智能体,并考虑了一个随机的、动态交互的环境,旨在使智能体之间通过相互协作以及与环境的交互学习基于相关均衡的动态调度策略。为了验证本文提出的模型和方法,我们基于多个著名的科学工作流模板以及Amazon EC2云实例进行了广泛的案例研究,并与传统算法,如多目标粒子群优化算法、非主导排序遗传算法-II和基于博弈理论的贪心算法进行对比实验。实验结果表明,我们提出的算法在生成调度计划的最大完成时间的最优性方面明显优于传统算法,最低水平差值优势超过53.4%,而总成本相较于对比算法的差值比率最高不超过9.9%。
其他文献
<正>"中国成语大会"是中央电视台与国家语言文字工作委员会联合主办的2014年度重点语言竞技比赛节目,自4月开始,经过近3个月的鏖战,比赛终于在7月6日晚落下帷幕,毕业于南昌大
医疗保险结算模式多种多样,不同的医疗保险结算模式对医疗保险机构、医疗服务供方和需求方的影响各不相同。科学合理的结算模式可以规范和引导供方的医疗行为,使医疗费用的发
零售业在经济的发展与居民的健康以及日常生活中一直都起着不可忽视的重要作用,是国民经济的重要支柱和构成部分。目前,各行各业正在被“互联网+”的思维更新,在这样的大时代
德育教育是小学教育的重要组成部分,直接影响着小学生人生观与价值观的形成,还有学生品德与性格的塑造。我们知道,小学生在学习生活上的随意性比较大,老师应规范班级管理,融
《兵》是作者在个人生活经历的基础上,创作的军旅题材的剧本。本文试图以剧作理论与个人创作实践相结合的形式,探讨人物(人物塑造、人物性格、人物关系)与戏剧情境的关系,以
网上拍卖是电子商务成功应用的典范,这一新型动态定价机制为传统网络营销带来了新的活力。由于拍卖品并不唯一,网上多物品拍卖应用广泛,且引起了学者们的广泛关注。本文对网
传统的逐层开采方式制约了多层缓倾斜薄-中厚矿床的安全、高效、经济开采,而多层条带开采能有效提高开采效率。条带矿柱作为缓倾斜空区顶板主要支撑体,其压缩破坏和强度特征,
近年来,随着互联网技术快速发展,零售企业也加快了互联网转型的步伐,无论是O2O模式、无人店模式、提升顾客体验、整合供应链,还是新业态新模式的转型,都成为新零售发展的创新
《奇鸟行状录》是当下日本最具国际影响力之一的作家村上春树倾注心血最多、创作时间最长的一部小说,这部小说讲述了一位身处社会边缘的男子冈田亨历尽艰难寻找突然离家出走
<正>1994年春天,我国国家层面上第一个面向45岁以下优秀青年科技工作者的专项科学基金——"国家杰出青年科学基金"(以下简称"杰出青年基金")设立,当年首批49人获得了该项基金