大规模车辆路径问题的深度强化学习算法研究

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:cypbvg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
车辆路径问题是学术界和理论界都十分关注的热点和难点问题,它在现实中是物流配送领域的核心科学问题,在理论上属于一类NP-Hard难题。尤其是近年来随着我国商务活动的规模化发展,现实中涉及到成百上千网络节点的车辆路径问题比比皆是[1],如何快速求解这类超大规模车辆路径问题是现实物流活动对该问题理论研究提出的新要求。尽管车辆路径问题已被大量学者所关注,而且已有很多优秀的求解算法,但它们在面临相同问题结构、不同数据的实例时需要从初始解开始寻找问题内部和数据内部的潜在关系,这种操作是费时费力的。近年来,学界提出的基于深度强化学习算法通过深层网络训练后,可以避免重复寻找相同问题的内在联系,使得快速求解现实中超大规模车辆路径问题成为可能,但是当使用深度强化学习解决大规模车辆路径问题时会面临网络提取问题特征不精确和内存溢出等问题。针对大规模车辆路径问题,本文构建了加入相对位置节点的Transformer框架,并在预训练和A2C强化学习训练完成后能有效解决这类问题。深度神经网络中,为了更精确提取到配送中心节点与顾客节点之间的内在联系,将传统Transformer框架中加入了相对位置节点,强化节点之间的内在联系。在强化学习网络中,本文通过将Actor-Critic网络变换成能够规避经验回溯的A2C网络,通过在线强化学习训练,在master节点和多个worker节点中的同步交互过程中,对机器学习网络进行迭代更新,提高其收敛效率。不仅如此,本文针对大规模车辆路径问题在深度强化学习训练中的内存溢出无法完成训练和不同规模之间不能共享训练模型等问题,设计了车辆路径问题的预训练框架。通过实验,将基于预训练框架的加入相对位置节点的Transformer网络使用A2C进行在线强化学习训练,并与启发式和元启发式算法的求解质量对比。并且分别对预训练框架、加入相对位置节点的Transformer网络和A2C网络通过控制变量的方式,进行收敛程度实验。研究结果表明,基于预训练框架的加入相对位置节点的Transformer网络,通过A2C强化学习进行在线训练后,在规模为100、200、300和500的带容量限制的大规模车辆路径问题的求解质量要优于求解质量较好的启发式、元启发式算法和已有的机器学习算法。虽然大规模车辆路径问题的在线训练时长依旧耗时耗力,但是训练完成以后,模型在724毫秒内能给出满意解。
其他文献
新时代以来,我国经济已由高速增长阶段转变为高质量发展阶段,面临产业结构转型升级新任务,亟需培育经济增长新动力。当前,专家学者们普遍认为以人工智能为核心的新科技革命先导技术是最有能力也是最有希望助推我国产业结构转型升级的武器。习近平总书记强调,人工智能是引领这一轮科技革命和产业变革的战略性技术,具有溢出带动性很强的“头雁”效应。因此,能否抓住我国人工智能发展带来的历史性机遇,乘胜加快推进产业结构转型
学位
多式联运是一种高效率、现代化的运输组织模式,可以充分发挥各种运输方式的组合优势,实现资源的高效整合和运输的无缝衔接。公铁联运是内陆集装箱多式联运的主要组成部分,具有运量大、成本低、安全性高和低碳环保等特点。但目前我国公铁联运发展较缓,货物主要通过公路运输,铁路运输占比较小,其中运价是制约公铁联运发展的重要因素之一。因此,研究集装箱陆港多式联运定价策略,对改变中国不合理的运输结构,引导集装箱公路直运
学位
为解决能源大数据中心多源异构数据质量评估难的问题,提出一种基于交叉域分析的能源大数据中心数据质量评估方法。首先,通过主成分分析法提取能源大数据中心的电、水、煤、气、油等数据;其次,通过模糊均值聚类方法对各类能源数据进行聚类,形成能源典型数据特征,并建立数据特征评估指标集;最后,通过能源数据交叉域分析来评估能源大数据中心数据质量。应用所提方法评估某市能源大数据中心的数据质量,评估准确率达99.32%
期刊
城市经济的快速发展及空间范围的不断拓展,城镇化水平的不断提升,导致居民出行的需求更加旺盛,交通拥堵、城市污染等问题随之而来。轨道交通具有运量大、速度快、效率高等特点,是解决城市交通问题的首要选择。然而,在轨道交通的发展过程中,暴露出诸多问题,如:轨道交通与沿线土地发展不匹配、城市交通供需不平衡、轨道交通客流的潮汐效应等问题。因此,对城市轨道交通协调关系进行研究,分析轨道交通系统、土地利用与轨道交通
学位
我国港口已步入从规模速度型向质量效益型转变的关键时期,推动区域港口群协同发展,加强港口建设和优化港口资源配置,是提升港口群整体竞争力的关键。粤港澳大湾区港口系统是我国重要沿海港口群之一,拥有深圳、广州和香港港三大世界级集装箱港口,港口同质化竞争激烈。为更好支撑粤港澳大湾区建设,需明确粤港澳大湾区港口系统竞争力提升的发展方向与着力点。本文首先采用集中度比率、赫芬达尔-赫希曼指数以及动态偏离-份额分析
学位
信息科学技术正飞速发展,不断产生和积累海量的科学数据,且数据的多源性和复杂性也在不断加剧,而这些科学数据是科学研究和进一步探究知识的基础。现阶段,存在一套简洁且可衡量的数据管理原则——FAIR原则,为提高科学数据监管与治理效能,促进科学数据的开放共享,实现数据资源的最大限度重用等方面,提供了重要指导依据。其中,FAIR原则要求科学数据发布时伴有溯源信息。一方面,溯源信息可以对科学数据进行标注和补充
学位
目的 探讨全膝关节置换术后并发深静脉血栓的危险因素,并建立预测模型。方法 回顾性收集2018年1月至2022年12月湘南学院附属医院收治的行全膝关节置换术患者218例,根据患者术后是否发生深静脉血栓分为深静脉血栓组53例和对照组165例。比较两组患者临床特征差异,同时分析全膝关节置换术后并发深静脉血栓的危险因素,根据相关危险因素,建立深静脉血栓的预测模型并进行验证。结果 两组患者年龄、糖尿病、血清
期刊
在传统的高中语文教学中,老师往往把任务群作为一种模式,这种模式下,学生被动接受教师布置的课堂内容。但是随着新课程改革要求教育工作者转变了观念、创新思维和培养创造性意识。情境学习是以"问题"为核心展开对学生自主探究活动过程与知识建构环节进行有效指导和引导而形成与发展起来并实现其认知能力水平提高及情感态度价值观完善的教学方式之一,因此在高中语文学习任务群中,老师要把中心放在创设一种情景氛围上。
会议
随着共享经济的不断发展,网约车作为共享交通的典型代表,在人们日常生活中发挥着日益关键的作用。它在带来了更加快捷和舒适的出行体验的同时,也暴露出许多的问题。不断发生的网约车负面事件,使用户在选择网约车出行时,感知到更多的风险。进而影响了用户的信任和使用习惯,使用意愿也受到一定程度的冲击。本文整理了感知风险、信任、习惯及使用意愿的相关理论,将感知风险划分为经济风险、隐私风险、服务风险、身体风险、心理风
学位
糖尿病作为一种终身性疾病目前已经成为威胁我国居民健康的重要因素,由于没有根治性手段,患者需要主动进行健康管理才能对疾病进行有效控制,因此如何有效提升糖尿病患者的健康知识水平是糖尿病防治工作的核心任务。随着互联网飞速发展,网络中积累了海量医学资源,通过知识图谱技术对这些数据加以整合归纳可以为患者提供丰富的医学及健康管理知识,帮助患者进行自我管理。然而目前国内医疗知识图谱的研究多集中于电子病历和医学文
学位