基于深度强化学习的不确定物流运输调度问题研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:wbs304
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
运输在整个物流业中占有很重要的地位,成本占物流总成本的35%-50%,占商品价格的4%-10%,控制运输成本对物流总成本的节约具有举足轻重的作用。随着信息技术不断发展,新技术应该在物流业得到广泛运用。通过使用现代信息技术,可以提高物流企业的运输调度管理能力,提高物流行业的服务水平,降低运输成本,从而提高物流企业的竞争力。对于不确定物流运输调度问题,现在的解决方案主要存在以下三大问题:第一,对于人工智能和大数据等新兴技术的使用还比较滞后;第二,求解确定型物流运输调度问题时经常使用的启发式智能寻优算法,并不适合用于不确定物流运输度调度问题中;第三,为使用传统启发式算法而建立的不确定物流运输调度模型,往往约束条件很多,十分复杂。本文致力于研究将一类新型的智能算法(深度强化学习算法)应用于不确定物流运输调度系统中。从物流企业经济效益的角度出发,根据不确定物流运输调度问题的实际情况建立多个车辆路径问题模型,并利用深度强化学习算法及其改进算法对不确定物流运输调度问题模型逐个进行求解。本文主要工作如下:(1)研究单配送中心不确定物流运输调度问题,并建立模型。提出利用基于指针网络的深度Q网络对该模型进行求解,通过仿真实验可得到具有可行性的物流运输调度策略。仿真结果表明,该算法在求解精度和稳定性方面优于常见智能寻优算法,证明该算法求解不确定物流运输调度问题有效可行。(2)研究多车型不确定物流运输调度问题,并建立模型。同样使用指针网络作为深度学习的方法,提出使用带基准线的REINFORCE算法对模型进行求解。通过仿真实验可得到具有可行性的物流运输调度策略。仿真结果表明,带基准线的REINFORCE算法求解多车型不确定物流运输调度问题可以得到精度更高的解,证明是一种具有实际应用价值的方法。(3)研究带时间窗的不确定物流运输调度问题,并建立模型。提出运用基于指针网络的演员-评论员算法对该模型进行求解。通过仿真实验可以得到可行的物流运输调度策略。最后通过实验仿真证明基于指针网络的演员-评论员算对于求解带时间窗的不确定物流运输调度问题具有良好的效果。(4)研究多配送中心不确定物流运输调度问题,并建立模型。提出使用基于改进指针网络的演员-评论员算法对模型进行求解。通过对指针网络模型的修改,使之更加适合用于本章建立的输入比较复杂的模型。通过仿真实验可以得到可行的物流运输调度策略。最后的实验仿真结果表明,基于改进指针网络的演员-评论员算法可以很大程度上提高复杂输入情况下算法的求解效率,证明是一种有效的改进。本文的创新点是建立了适用于深度强化学习算法的不确定物流运输调度问题的数学模型,并采用指针网络作为深度Q网络、带基准线的REINFORCE算法和演员-评论员算法等深度强化学习算法的深度学习网络,求解不确定物流运输调度问题。经实验表明,运用本文提出的方法均得到了较好的求解结果。
其他文献
目的探讨剖宫产后孕妇再次妊娠分娩危险因素的护理,以保证孕妇胎儿的安全。方法选择2012年11月-2013年12月在深圳市龙岗区妇幼保健院剖宫产后再次妊娠自愿阴道分娩200例孕妇
信号肽酶复合体(SPC)通过水解切除信号肽调控蛋白分泌,实验旨在研究信号肽酶复合体催化亚基SPC18对细胞行为、蛋白分泌功能的影响,探究其在乳腺生物反应器中的应用。本研究在
目的探讨腹腔镜治疗老年急性胆囊炎患者的临床效果。方法选择我院2010年1月-2013年1月收治的106例接受手术治疗的老年急性胆囊炎患者,随机分为两组,每组各53例,对照组给予剖
目的探讨梅州市2001—2006年狂犬病的流行特征,为狂犬病防制提供科学依据。方法收集梅州市2001—2006年狂犬病疫情资料和个案调查表.运用Excel 2003进行流行病学分析。结果2001
青藏高原热、动力作用在亚洲季风系统中扮演重要角色,高原的热、动力强迫异常对东亚大气环流及天气气候的影响一直是热点科学问题。高原地表广泛分布着季节性冻土和多年冻土,
神华集团煤炭资源储量管理系统是针对煤炭资源储量管理业务的B/S远程网络平台,矿井基层管理人员通过该系统在网上完成日常储量管理业务并实时上报,各煤炭公司、集团总部管理人员
近年来,随着畜牧业的高速发展,兽药在保证食源性动物增产、增效的同时,食品中兽药残留已经成为一个日益严重的全球性公共卫生问题。兽药的不当使用会使其残留在动物可食用组
温度和血液凝固对ATⅢ活性测定的影响龚道元李子萍(广东佛山职工医学院检验系,广东佛山528000)凌光鑫周克元易正山康梅(广东医学院)关键词温度血液凝固ATⅢ活性质量控制为了较好的对抗凝血酶
目的:探讨有氧运动和抗阻运动对糖尿病大鼠周围神经结构功能的影响及机制。方法:60只雄性SD大鼠分为对照组(pC,n=24)和造模组(p D,n=36),造模组高脂高糖饮食喂养7周后,配合一
目的 制备抗PSMD10的单克隆抗体(McAb),并对其特异性进行鉴定。方法 用柱层析纯化的重组PSMD10蛋白免疫BALB/c小鼠,采用杂交瘤技术制备McAb,用ELISA和有限稀释法筛选出分泌高滴度Mc