基于多目标分布式强化学习的大规模订单指派机制

来源 :上海财经大学 | 被引量 : 0次 | 上传用户:a542886140
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网约车市场的快速发展,对订单调度的效率提出了越来越高的要求。传统的策略,要么以最小化司机与乘客间的距离为目标,要么以最大化平台收入为目标,在一定程度上优化了订单匹配机制,但从时空的角度看,并不是最优的。本文旨在开发一个多目标分布式强化学习(MODRL)框架,在匹配司机与订单时,既考虑未来累积收入,又考虑供需网络之间的平衡,以提升用户体验,促进平台发展。在基于强化学习的方法中,司机的服务轨迹,被建模成马尔科夫决策过程。状态是司机所处的地理位置、时间和环境特征,动作是接单或者空车游走,策略是司机在某个状态下执行某个动作的概率,奖励是订单的费用。本文对此进行拓展,创新性地提出了多目标半马尔科夫决策过程,允许司机的一个动作跨越多个时间片,设置订单终点的供需差作为第二个奖励。在更加贴合真实场景的同时,融入供需差因素,将多余的司机指派到供不应求处,以平衡供给与需求。收益与供需差在匹配过程中的作用是不一致的,为寻找两者之间的权重,本文采用了相对熵逆强化学习算法。它基于最大熵逆强化学习算法,在满足约束的情况下,使得专家轨迹分布的熵最大,再利用最大似然法求出权重向量的梯度。但是由于订单调度环境的复杂性,无法获取司机的状态转移概率。需要借助重要性抽样的方法,从策略已知的轨迹中抽取一部分,用来计算梯度。往梯度下降的方向更新权重向量,期间固定第一个分量w1=1(对应订单费用),不断迭代直至分量w2(对应订单终点供需差)收敛。平台在指派订单时,需要考虑到未来累积收益的大小,即状态价值。求状态价值的方法主要分为三种:动态规划、蒙特卡洛和时间差分。其中动态规划需要用到状态转移概率,不适合此处的场景;蒙特卡洛从已有轨迹中采样,效率太低。时间差分结合了蒙特卡洛的采样思想和动态规划的自举思想,既避免求复杂环境中的状态转移概率,又提升了学习效率。本文正是采用了这种方法,计算当前状态价值与后继状态价值之差,作为优化的目标。另外,考虑到状态价值是一个分布,仅考虑其期望是不够的,本文借助隐式分位数网络,通过学习各个分位点间接地获得整个分布。在最终的联合训练模型中,两个目标的分位数网络共享状态嵌入层,同时拥有各自的分位数水平嵌入层和全连接层,总损失函数是分位点损失与时间差分损失之和。从滴滴平台获取了三个城市的司机轨迹数据,经预处理后,求得两个目标间的相对权重。将司机轨迹转化成(状态,奖励,下一状态)的三元组,用于学习状态价值分布。经过测试,联合训练要优于两个模型分开训练,收敛速度更快,损失函数也更小。为了评估多目标分布式强化学习框架的有效性,在调度模拟器上进行试验,将司机与订单的匹配建模成二分图,调整供需因素的权重w2,分别与距离最近策略、收入最大化策略、CVNET进行对比。结果表明,寻找到的最优策略无论是在平台收入上,还是在订单响应率和完成率上,都明显优于三个Baseline,在供需错配越严重的城市,提升效果更加明显。供需差因素在实际的匹配过程中往往被低估了,提高供需差因素的权重,模型能从更宏观的角度优化司机的空间分布,从而促进供需市场达到平衡,释放平台收入增长的潜力。固定最优策略对应的w2*,将边权计算公式中的期望替换成分位点,探究不同分位点之间、分位点与期望之间的组合对于调度效果的影响,结果显示,在部分城市分位点取得了比期望更加优异的表现。不同城市偏好不同风险的策略,充分利用状态价值分布分位点的信息,有助于进一步优化订单指派机制。本文提出的多目标分布式强化学习框架,在提升了平台收入的同时,又使得供需网络变得更加平衡,具有很广阔的应用前景。
其他文献
在高炉冶炼钒钛磁铁矿精矿的过程中,会产生大量的钒渣。钠化焙烧提钒是现在应用最广泛的提钒工艺,但提钒产生的尾渣多为堆放处理,导致其富含的铁、钒、钛、铬等有价元素未得到回收利用,且其中的铬(Ⅵ)会对环境造成严重污染,甚至会影响人的生命健康。本文主要介绍钒渣钠化焙烧提钒工艺现状、提钒尾渣中铁的资源化综合利用研究现状。
以三部十层电梯作为研究对象,采用西门子S7-1200可编程逻辑控制器,通过博途软件TIA portal和组态软件视窗控制中心(SIMATIC WinCC)对三部十层电梯系统进行设计系统地阐述电梯控制系统项目的开发流程,包括项目设计方案、硬件组态、可编程逻辑控制器(PLC)程序设计以及实时监控电梯运行状态的WinCC画面设计。将开发完毕的程序下载到PLC里,通过西门子电梯仿真软件EET进行仿真试验,
稻田综合种养作为一种高效的生态养殖模式,深度切合当下的新型农业技术发展潮流,高效且环保地利用有限的稻田空间。稻蛙综合种养是近年来稻田复合种养新发展起来的主要模式,具有投入小、产出大、能控制病虫害和增加稻田有机肥等优势。为在贵州因地制宜地实施规模化综合种养管理、提升稻田综合种养经济效益和生态效益提供参考,结合黔东南州黎平县、天柱县及铜仁市碧江区等多个现代稻蛙综合种养基地的实地调研,从田间工程、优质稻
保障人民生命安全和身体健康是中国共产党的重要责任。本文从践行中国共产党根本宗旨和初心使命,满足人民美好生活需要,实现“两个一百年”奋斗目标和中华民族伟大复兴的中国梦,促进人的全面发展,有效应对重大突发公共卫生事件等方面,探讨了习近平关于把人民健康放在优先发展的战略地位意义的重要论述。
脂肪在皮下、腹腔、骨髓和脏器等部位广泛分布,不仅是人体能量储存的重要组织,也是重要的内分泌和免疫器官。脂肪代谢异常与许多疾病的发生发展密切相关,尤其是代谢综合征(肥胖、高血糖、高血压、血脂紊乱)、非酒精性脂肪性肝炎等严重危害人类健康的重大疾病。研究表明人体脂肪分布特征与肥胖及相关代谢性疾病风险密切相关。然而,现有人体学诊断方法如腰围、身体质量指数(Body Mass Index,BMI)等手段既不
情境教学法已被高中政治教师广泛运用,它突破了传统的讲授法,能充分调动学生的主动性和创造性。主线式情境教学法可以说是情境教学法下的一个分支,它强调情境内容的单一性和教学过程的连续性,以一条主线情境层层递进,推进教学,既具有情境教学法的共性特征,又有自己的个性特征。本文采用文献研究、案例分析、行动研究等方法,以高中政治统编版教材《政治与法治》为切入点,对主线式情境教学法在高中《政治与法治》教学中的运用
角膜屈光术是一种有效性、安全性良好的术式,目前在近视患者中获得广泛应用。但该种术式可引发相关并发症,干眼症是术后常见并发症之一。干眼症不仅对角膜屈光术治疗效果产生影响,还可引起眼部明显不适、泪膜不稳定、视力障碍等,严重影响患者日常工作、生活,降低患者生活质量。角膜屈光手术治疗过程中,患者自身眼表状况、术中相关药物的使用、手术操作、术后角膜损伤及恢复等均可引发干眼症。为了进一步保证角膜屈光术应用的安
作者团队在川渝地区开展了基于巨型稻下稻蛙综合种养技术模式的研究与实践,结果表明,该模式提高经济效益、生态效益和社会效益明显,易于推广,可促进产业兴旺。本文总结了巨型稻下稻蛙综合种养模式相关情况,介绍了田块选择与改造、巨型稻栽培、青蛙养殖与管理等关键技术,以供相关从业者参考。
期刊
<正>“我们要做到首先让观众觉得好看,其次才能通过这些故事让他们感受到中国的变化,也就是首先要让大家‘哭着笑着’,然后才会‘感动着’,最后变成‘自豪着’。”经过半年多筹备,2022年4月以来,《我们这十年》各个单元陆续进入拍摄阶段。作为“迎接党的二十大”主题电视剧重点项目,该剧以习近平新时代中国特色社会主义思想为指导,以全面回顾党的十八大以来建设发展的辉煌历程为总体目标,展望全面建设社会主义现代化
期刊