基于强化学习的动态虚拟机调度算法

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:palerm97
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着云计算的飞速发展,大规模动态虚拟机调度的重要性日益提高。云服务提供商购买大量物理主机服务器,建立数据中心,再将服务器的计算资源用创建虚拟机的形式分割出租并从中获利。设计一个优秀的动态虚拟机调度系统可以为云服务提供商节省大量成本支出,因而成为了近年来的研究热点。在动态虚拟机调度过程中,最困难的问题在于其随机性,即创建请求和删除请求通常是不定期地随机出现的。现有的调度算法通常将动态虚拟机调度问题建模成动态矢量装箱问题,但没有明确考虑使用非统一内存访问架构的服务器体系结构。事实上,为了可以提供更大规格的虚拟机,非统一内存访问架构的服务器已被云服务提供商所广泛使用。这一特殊的主机架构带来了新的虚拟机调度机制,从而为虚拟机调度问题带来新的挑战,亟需新的调度系统进行解决。此外,现有的动态调度算法存在求解效率不足、仅基于局部信息、容易陷入局部最优、无法利用历史数据等问题。针对上述研究现状及存在的问题,本文工作如下:1、对基于非统一内存访问架构的动态虚拟机调度问题进行形式化建模。现有工作均未涉及到非统一内存访问架构,因而该问题尚未有明确的数学表达形式。本论文对该问题的逻辑进行梳理,使用形式化的方式,将其表述为带约束的组合优化问题,以对其进行建模。2、提出了一种基于深度Q网络的单智能体动态虚拟机调度算法。事实上,直接求解所提出的带约束的组合优化问题具有十分大的难度。本论文从单智能体视角出发,将其重构为马尔可夫过程,并提出了基于双深度Q网络的强化学习调度算法Sched RL进行近似求解。考虑到朴素建模中会存在稀疏奖励带来的低效率采样问题,本论文针对性地设计了特殊的差值奖励函数及场景驱动的高效采样机制。3、提出了一种基于值分解网络的多智能体动态虚拟机调度算法。随着问题规模的上升,使用单智能体的方法会导致状态空间与动作空间爆炸的问题。因而进一步地,本论文再次从多智能体的角度出发,对原问题进行马尔可夫过程重构,并提出了基于值分解网络的强化学习调度算法Sched MARL进行近似求解。在此过程中,同样使用了特殊奖励函数及高效采样机制。为了训练与合理评估本论文所提出的算法,本论文对基于非统一内存访问架构的动态虚拟机调度过程进行了仿真系统开发,并设计了仅创建场景与普通场景两种实验方式。在两种不同的场景下,本论文在微软云的公共数据集上对提出的算法进行了评估,包括基线测试、奖励函数研究、及采样策略消融实验。Sched RL与传统的贪心算法相比,在两种场景下均性能更佳。Sched MARL在仅创建场景下能获得更快的收敛速度,但不适用于普通场景。奖励函数研究展示了本文所提出的差值奖励函数的优越性。采样策略消融实验则启发了采样参数的设计思路。
其他文献
近年来,金融市场中交易模式的创新和金融产品的丰富使得金融高频数据成为了当下的研究热点。由于金融市场中的交易都是随机的,所以产生了变化的不规则的交易时间间隔(也称持续期)数据,这其中包含了大量的市场微观结构信息(如时变性、聚集性等)。通过对持续期的研究可以发现日内交易的行为结构,可以更好地理解市场的微观结构。在目前的研究中大多用自回归条件持续期(ACD)模型来描述持续期的演变。在用ACD模型进行建模
东北民歌《看秧歌》是郭颂先生根据东北汉族民歌进行改编的,这首作品是东北民歌最有代表性的作品之一。这首作品采用“非方整性起承转合”的曲式结构,不仅唱腔、唱词独具特色,而且运用了大量的东北方言,衬字衬词的运用也凸显了东北民歌的色彩。本文通过四个方面对该作品艺术特色进行具体的分析,首先从这首作品的历史背景入手,了解其源于东北民间大秧歌以及东北民歌的发展脉络。其次是从它的唱腔、歌词中方言的韵味、衬字衬词、
教育背景下,数字教学制品不仅是电子格式的人工制品,它的设计和开发是一种工具和教学的有效连接,已成为教育技术领域的重要议题。教师在制品设计过程中考虑到哪些要素及要素之间的重要性变化,作为一种证明教师产生思维和实践转变的教学证据,这种技术带来的改变体现在教师理解和熟练使用的过程中。目前已有大量研究探讨将频次性数据作为教师技术采纳的依据,而非结构化的图像制品内容因其难以测量、语义本身的复杂性,对之的测量
随着我国城镇化水平大幅提高,城市人口数量急剧膨胀,导致城市内部空间与土地资源愈发紧张,其引发的交通拥堵、区域发展失衡等问题,反而会加剧城市负担、制约城镇化发展。如何解决城市交通拥堵问题,并促进区域协调发展,这已成为我国经济发展和社会进步过程中的热点问题。关于地铁这一准公共产品的布局对城市土地资产和人口集聚的影响效应,学者们分别从其研究方法及模型、正外部性与负外部性、影响的空间及时间范围和程度等方面
随着人工智能和虚拟现实的发展,虚拟代理这一技术进入了我们的生活,尤其在产品推荐情境中具有一定潜力。在与产品推荐虚拟代理交互时,信任对用户的购买意愿起到了至关重要的作用,但学者们对于人-代理交互的信任范式存在争议。一些学者认为只要提供最低的社会线索,人们也会将代理感知为真人;而另一部分则认为要通过拟人化手段让代理更像真人。此外,许多学者从系统加工的角度对产品推荐虚拟代理进行研究,但较少有人从启发式加
有杆抽油方法是目前国内应用最为广泛的一种人工举升方法。由于地下情况复杂,工作条件恶劣等原因,及时掌握井下故障情况并采取合适的措施对油田正常生产有重要意义。利用计算机结合地面示功图诊断工况是目前较为常用的一种方法,但由于地面示功图包含信息较少,只能诊断井下工况等问题,使利用地面示功图进行诊断的方法难以进一步深入。随着人工神经网络的发展,卷积神经网络因为其在图像识别的优势,使得卷积神经网络从众多类型的
信息化时代,信息已经成为一种至关重要的资源要素,对国家、社会以及各行各业发展都有重大作用。近几年农民收入不断增长,虽然城乡收入比有所下降,但与城镇居民的收入绝对差距仍然不断扩大。如何提高农民收入,始终是我国三农政策所关心的重要问题,也一直是农业和农村面临的主要矛盾。实现全面小康,关键在于持续增加农民的收入。增加农民收入一个主要的方式就是发展农业信息化,这也是缩小农民与城镇居民收入差距的非常重要的途
过程方差是否受控对产品质量的稳定性有着重要影响,因此监控过程方差的变化是十分重要且具有现实意义的。休哈特(Shewhart)S~2控制图是监控正态总体过程方差漂移的常用控制图,但是它在过程方差发生中小漂移时的监控效果不理想。本文在之前学者研究的基础之上设计了运行和S~2控制图,亦用等尾概率限和平均链长无偏两个方法来设计了带r-of-k,M:r-of-k(k>r)链规则S~2控制图和带GR 2-of
当前我国网络直播的法律法规还有一些欠缺,“徒法不足以自行”,各种低俗、虚假、情色等潜在的危害内容在网络中无处不在。实际上,直播平台也抓住监控不便等的漏洞,为了经济利益而在管理上比较草率,使用部分素质欠缺的主持人。并且由于网络平台直播职业的特殊性和赛博空间的遮蔽性,很难对网络直播进行全方面监管。本文以斗鱼TV为例,通过对于用户调研数据的分析,阐述了我国网络直播的发展现状,对我国直播平台的政府管理监督
近年来有许多学者发现,环境信息作为一种非财务信息,除了能够监督企业更好地保护环境,还能够透露出一些异质性风险,缓解企业与资本市场的信息不对称,进而对企业的投融资和经营发展产生影响。传统经济学认为环境规制会给企业增加负担,导致企业缩减研发,从而降低竞争力。但是“波特假说”反驳了这一观点,提出环境规制虽然会产生环境成本,但是合适的环境规制会促使企业通过自身的创新活动来抵消这部分的成本。在实际的经济生活