深度强化学习求解作业调度问题方法研究

来源 :北京交通大学 | 被引量 : 1次 | 上传用户:harric1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为研究最广泛的一类组合优化问题,作业调度问题是现实社会中交通、物流、工厂等领域实际问题的抽象模型。组合优化问题中约束条件复杂,求解空间庞大等因素都增加了其求解难度。目前,传统方法在求解作业调度问题时存在一定的局限性,而强化学习作为近来最受关注的机器学习领域,在很多问题上都有很好的应用。因此,本文为了探索人工智能算法在实际生产中的应用,着重研究了深度强化学习方法求解经典的组合优化问题——同顺序流水作业调度问题。论文的主要工作如下:第一,建立行动者-评论家模型求解同顺序流水作业调度问题。首先根据同顺序流水作业调度问题的约束条件和求解目标等建立该问题的数学模型。同顺序流水作业调度问题实质上可以被抽象为序列决策问题。为了帮助求解该问题,本文引入两种神经网络模型来进行序列决策:一种是采用了编码器-解码器框架结构的指针网络;另一种是结合了Transformer模型和指针网络的注意力网络。针对同顺序流水作业调度问题,分别基于指针网络和注意力网络两种神经网络模型构造行动者-评论家的深度强化学习框架来求解。第二,提出了异质网络的行动者-评论家模型。本文改进了传统的行动者-评论家框架的神经网络结构,根据作业车间调度问题的特征和模型中不同模块的任务特点,综合分析各种网络的结构特性,设计了一种异质网络的行动者-评论家网络。在模型训练部分,采用ε-greedy的搜索策略在保证模型的训练效果的情况下提升模型的探索能力。最后结合了2-opt算法进一步改进模型,提升模型的求解效果。实验表明在求解同顺序流水作业调度问题上,本文提出的算法与同质网络的行动者-评论家模型相比具有高效性和优越性;与传统方法特别是元启发式算法相比,本文的求解效果非常接近甚至在某些情况下上超过了元启发式算法。
其他文献
作为一种处理多信道信息的技术,图像融合能够在同一个场景下增强图像的信息。针对一个限定的场景或者景物,用几个相同的采集器或者几种采集器获得的多源图像包含丰富的冗余信息以及互补信息,融合重复性信息和差异化信息有益于提高图像中有效信息占比,也能够在融合图像中保存更多的纹理、细节信息。正是因为提取了多源图像的信息,融合图像同任意一张固定角度图像相比对景物的展示都要更为精准全面,更适用于人为观察和应用分析。
流化催化裂化(FCC)工艺被普遍应用于石油加工过程中,而受原油品质重质化、劣质化影响,各大炼厂逐渐提高了FCC原料油中的掺渣比,着重于重油高效转化的RFCC工艺在FCC中的占比也随
调度问题不仅常见于供应链管理和运营中,同时也广泛存在于软件开发计划、计算机系统控制、机器端口调度和生产计划中。作业车间调度问题是标准的NP-hard问题,并被认为是最具有挑战的调度问题之一,是集成制造技术的重要研究内容和运营管理问题的核心。本文针对以最短完工时间为目标的作业车间调度问题,对分支定界法进行了改进和应用;同时对混合遗传算法和蚁群算法进行了改进,并将改进后的算法应用在多自动引导小车场景下
五种常用工程塑料之一的尼龙6(PA6)具有耐磨、耐腐蚀、易加工成型等特点,工业应用十分广泛。然而尼龙6尺寸稳定性差、强度和模量较低,利用熔融共混方法对尼龙6进行碳纤维(CF)
稠环含硫化合物的脱除是清洁油品生产的重要过程,而揭示加氢脱硫反应机理对于催化剂的开发具有重要意义。本论文通过浸渍法制备了以Al2O3和SiO2为载体的MoS2、Ni-MoS2和Co-Mo
铅黄铜由于具有优异的力学性能、切削性能、耐腐蚀性能以及成型性能,被广泛应用于水暖卫浴、电工电气、仪器仪表、装备制造等诸多产业。但Pb存在毒性,破坏环境和危害人体。因
产品模块化配置是实现产品高效个性化定制的核心内容,对其理论和实现方法进行研究可为个性化定制系统开发提供有效支撑和保障。论文重点研究了聚氨酯高压发泡设备模块化配置所需的关键技术,探讨了产品模块化技术、产品模块化配置建模与优化等技术问题,并在此研究基础上设计并开发了聚氨酯高压发泡设备在线个性化定制系统。论文的主要工作及研究内容如下:首先,研究面向个性化定制的聚氨酯高压发泡设备模块化方法。针对聚氨酯高压
炎症通常情况下是有益的,但若不加以控制导致炎症反应过激,则会给机体带来更严重的危害,如脓毒症。近年来,纳米技术的迅速发展使其在生物医疗中的药物输送领域获得的广泛的研
任何量子信息处理任务都依赖量子系统性质的有效可靠刻画,而量子态层析的目标正是刻画量子系统的性质.因此,量子态层析在量子信息处理中起着至关重要的作用.量子态层析的最大
学位