基于对抗学习的单机调度算法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:soj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
调度是在满足一定的约束条件下对资源实施合理分配的一个决策过程。调度问题作为典型的组合优化问题,在生产消费及流通服务等行业,有着广泛的应用背景。在实际应用过程中,要想得到一个好的调度通常是困难的,因此,对调度问题快速有效的求解算法在许多场景下具有非常重要的价值。综观包括分派规则、整数规划及进化计算等传统算法,其在求解问题的一个算例和另一个算例的计算过程之间没有任何联系。基于“相似的问题应该有相似的解”这种理念,直观上,在其他算例的求解过程中累积的知识,对新算例的求解应该是有所裨益的,是值得在算法设计过程中进行充分挖掘和利用的。基于这一认识,本文提出了一种基于对抗学习的调度算法,在深度学习的框架下探索了调度算法的设计。具体地,本文的主要工作如下:从搜索最优解的角度,考虑到同一个调度模型的不同算例所对应的求解难度区别可能很大,同时,为了对一个学习模型进行有效训练,需要尽可能在训练样本中包含不同难度特征的数据。因此,本文针对高质量训练数据难于获取的问题,提出了一种基于对抗学习的生成器—求解器框架,将样本生成和学习算法的训练统一到一个框架内。在上述基于对抗学习的生成器-求解器框架下,考虑了两个经典的有到达时间的单机调度模型1|rj|ΣCj,1|rj|ΣwjCj,并引入LSTM网络作为生成器—求解器的网络结构,设计了相应的监督学习算法,其中训练样本的最优或近似解由一个基于动态规划的最优算法得到,在训练方法上,提出了一种交替训练的方式分别对生成器和求解器进行训练,最后通过仿真验证了算法有效性。为了提高可行解的质量,改善监督学习算法对训练数据质量的过度依赖,提高模型的泛化能力,进一步在上述对抗学习框架下,考虑了强化学习调度算法,其中强化学习方法采用Actor-Critic算法,对抗网络的训练方法仍采用上述的交替训练方式。在两个相同的单机调度问题上,与监督学习算法进行了仿真对比,验证了算法的有效性和强化学习的优势。
其他文献
美国独立后就在现实利益的驱使与扩张主义思想的推动下,制定了一系列向西扩张的政策,具体表现为领土扩张、经济扩张与文化扩张。这种外部扩张压力引起了土著部落巨大的社会变迁,并对他们造成严重的破坏性影响。为解决部落面临的种种危机,求得生存,以肖尼人特库姆塞和坦斯夸塔瓦为代表的复旧派带领部分印第安人走上了抵抗美国扩张的道路,并且提出了解决部落危机的一系列方针:首先,特库姆塞等人试图回归印第安人原有的宗教信仰
金属有机框架(MOF)作为一种具有大比表面积、高孔隙率、低成本的新型材料,近年来已被广泛应用于超级电容器中。然而MOF的低导电性和不完全暴露的活性位点一定程度上限制了其电
目的:本研究旨在从细胞和分子水平阐明KATP通道通过调节小胶质细胞的凋亡及自噬对脑缺血再灌注损伤的神经血管单元起保护作用,为靶向于小胶质细胞功能调节药物应用于脑卒中等
从上世纪60年代以来,学术界开始经历被称为“语言学转向”或“文化转向”的潮流。这股潮流对历史研究的重要影响之一是推动了新文化史的诞生。林·亨特便是新文化史的代表人物之一。中外史学界对林·亨特的史学思想已存在关注,但对其人权史写作的研究则颇为薄弱。林·亨特的人权史作品有着深刻的理论来源。这其中的首要前提是文化概念的扩张。人类学使传统的文化概念的内容更加广泛化、视角更加历史化、性质更加符号化,从而推动
国内外宏观经济环境的日益复杂提高了我国实体经济对衍生品等风险管理工具的需求。中国衍生品市场发展十分迅速,各品种也日趋丰富。衍生品受到了监管部门、投资者和管理者越
目的:根治性子宫切除术+盆腔淋巴结清扫术是早期宫颈癌的最佳治疗方案,而术后辅助治疗的选择取决于与复发相关的病理中、高危预后因素。目前标准的术后辅助治疗方案是辅助放
近年来,随着社区问答(Community Question Answering,CQA)网站的快速发展,CQA系统中积累了大量问题,这些问题中有很多是重复性问题,即有着相同的回答。在实际应用中,如果能从
近年来,科技的飞速发展使得全球能源需求不断增长,急需开发高性能、低成本、环保的能源转换/存储系统。超级电容器得益于其比电容高、循环能力强、充放电速度快等优点,成为新
目的:探讨影响多胎妊娠减胎术妊娠结局的临床因素。方法:收集2016年10月至2018年10月于山西医科大学附属第一医院生殖科行多胎妊娠减胎术患者124例,分析年龄、助孕方式、减胎
背景及目的:近年来肿瘤的发病率在逐年升高,随着医疗技术的不断发展,越来越多的肿瘤患者得以长期生存。但女性患者在肿瘤治疗过程中所采取的治疗方式,包括手术、放疗及化疗都