基于深度强化学习的共享单车调度策略研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户：ah51616

【摘要】

：

【作者】

：

李连欣

【机构】

：

武汉理工大学

【出处】

：

武汉理工大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

共享单车作为一种绿色低碳的出行方式,给人们的出行带来了极大的便利。然而在运行一段时间后,有些区域可能共享单车堆积而有些区域用户却无车可骑,此时共享单车的分布无法满足用户的出行需求。因此,共享单车平台需要对共享单车进行调度从而提高用户服务率。目前,共享单车调度问题可采用卡车拖运和激励用户参与的两种方式来对各区域内共享单车进行调度,以提高平台的用户服务率。其中,采用卡车拖运的方式是通过卡车在不同的区域间装载或卸载共享单车来实现对共享单车的调度。激励用户参与的方式则是将调度任务众包给用户,通过给予用户一定的金钱激励来鼓励用户将共享单车归还到其它区域,以实现对共享单车的调度。针对上述两种调度场景,本文分别设计了在预算约束下的两种共享单车调度策略,主要研究工作如下:（1）给出本文共享单车调度问题的基本设定。首先给出共享单车平台、卡车以及用户的设定,然后分别对卡车拖运和激励用户参与的共享单车调度问题进行定义。对于卡车拖运下的共享单车调度策略,卡车在不同的区域之间装载或卸载共享单车需满足卡车的容量以及当前区域中共享单车的供应量等约束,同时,还需考虑卡车的燃油成本以及工人的搬运成本需满足预算约束的限制。而对于用户参与下的共享单车调度策略,当用户执行完调度任务后还需步行回到用户本来的目的地。当用户执行完调度任务步行的距离大于用户的最大步行距离时,用户可能不愿意执行调度任务,因此为用户分配调度任务时还需考虑用户的最大步行距离,同时,激励给用户执行调度任务的价格还需满足预算约束的限制。（2）卡车拖运下的共享单车调度策略研究。在用户动态的出行需求和共享单车动态的分布下,卡车在每一个时间段内如何调度是一个序贯决策过程。因此,本文将卡车拖运下的共享单车调度问题建模成马尔可夫决策过程。同时考虑到该问题中庞大且连续的状态空间以及离散的动作空间,本文基于深度Q网络算法DQN来设计卡车拖运下的共享单车调度策略。接着,本文在摩拜单车数据集上进行实验并与群体智能算法PSO、服务率优先算法以及未调度的情况进行对比。实验结果表明在不同的卡车出发区域、共享单车供应量以及预算约束等情况下,本文的共享单车调度策略均能取得最好的效果,能够为平台提供有意义的指导。（3）用户参与下的共享单车调度策略研究。为了在有限的预算限制下提高平台长期的用户服务率,本文考虑为各个时间段进行合理的预算分配的同时为用户生成调度任务。因此本文用户参与下的共享单车调度策略中包含任务生成算法、预算分配算法以及任务分配算法。其中任务生成算法是指为用户生成调度任务。在任务生成算法中,本文基于LSTM预测用户未来的单车需求,同时结合各个区域的单车供应量来生成当前时间段内用户的调度任务。在预算分配算法中,顺序地为各个时间段分配预算是序贯决策问题,因此本文将其建模成马尔可夫决策过程,同时由于该问题具有高维和连续的状态空间和连续的动作空间,因此本文基于深度确定性策略梯度算法DDPG来设计预算分配策略。在任务分配算法中,本文采用合理的分配策略,以保证在满足预算约束的条件下将调度任务合理分配给用户同时使得执行调度任务的人数最大化。最后,本文基于摩拜单车的数据集进行实验并与无预算限制的调度策略、贪心预算分配的调度策略、卡车拖运下的调度策略以及未进行调度的情况进行对比实验。结果表明本文的用户参与下的共享单车调度策略在不同的预算约束以及共享单车初始供应量情况下,都能取得除无预算约束的调度策略外最好的效果,能够为激励用户参与的共享单车调度问题提供有意义的指导。

其他文献

数字化转型的路径及绩效探究——以索菲亚为例

随着大数据、人工智能等技术的发展，数字经济时代已经到来，传统企业的数字变革也是大势所趋。索菲亚是家居定制行业中最早进行数字化转型的企业，最终实现了智能制造以及流程信息全打通的愿景。文章以索菲亚为例，对其数字化转型的动因、路径以及企业的盈利、营运、偿债、成长能力和EVA指标进行分析，以期为其他企业进行数字化转型提供参考。

期刊

基于区域生长的叶脉网络层级分割研究

叶脉是支撑叶片生长、运输叶片所需养分与光合作用产物的重要结构。叶脉根据所处位置、生长趋势和宽度等因素可以将其分级,例如一级叶脉定义为从叶柄向叶尖延伸的最粗叶脉,叶脉层级相较于叶脉网络更能表征叶脉的特性。叶脉的层级分割对图像分类、叶片建模和分子育种等领域具有重大意义。然而,当前对叶脉的研究大多停留在叶脉网络,由于层级叶脉复杂难以定位,更能发掘叶脉的特性的叶脉层级却少有涉及。一方面各级叶脉在色彩、亮度

学位

主题感知的长文本自动摘要算法研究

生成一直是自动摘要领域的难题,现有的文本自动摘要方法在处理长文本的过程中,存在准确率低、冗余等情况。无法达到令用户满意的性能效果。主要问题有两点:其一,目前以卷积神经网络（CNN）/循环神经网络（RNN）为编码器的抽取式文本摘要模型,在进行长文本抽取时,模型对文本内容的理解不够,抽取效果极不稳定,无法抽取到长文本的主旨句。其二,目前单纯的抽取式摘要模型存在性能瓶颈,由于抽取式文本摘要的粒度过大,进

学位

基于指针标注的生物医学实体识别和关系抽取研究与应用

近年来,生物医学领域研究取得飞速进展,大量携带研究成果的文献被发表。尽管有人力物力去手动整理这些文献中的信息,但仅仅依靠人力对信息进行更新远远跟不上文献发表的速度。与通用领域相比,生物医学文献的信息抽取存在大量的嵌套实体和重叠关系等问题。因此,如何准确的从大量生物医学文献中抽取出有价值的知识,是目前生物医学领域信息抽取的重大挑战。为此,本文研究了生物医学领域的实体识别和关系抽取。对于实体识别,本文

学位

基于元学习内外循环优化的小样本图像分类方法研究

近年来,得益于高性能计算机或分布式系统的超强计算能力,深度学习方法在计算机视觉相关问题上,尤其是对图像分类任务的研究,取得了长足的发展。然而,在实际计算操作或者现实生活中,出于安全或者隐私等方面考虑,常常面临难以获取样本或者图像样本量过少的问题,这在研究领域内被定义为小样本学习问题。而当涉及到小样本问题时,高性能的计算能力或是传统深度学习模型似乎显得力不从心。针对目前计算机视觉中的热门问题,本文对

学位

基于兴趣区域和行驶轨迹的车联网安全消息广播方法研究

近年来,汽车产业在移动互联、大数据及云计算等技术的推动下不断向着智能化、网联化方向发展,车联网在支持城市交通系统中安全相关应用方面具有广阔前景。在车联网中,高效的信息传播可以让车辆更好地了解潜在的风险和交通异常,对于提高交通安全性和效率具有重大意义,因此目前有大量的研究集中在车辆间安全消息广播方法的设计上。然而,现有的安全消息广播方法往往基于当前的信道状态或网络拓扑结构进行消息传输,只考虑最小化安

学位

基于轻量级主干网络的Anchor-free目标检测方法研究

随着深度学习技术和计算机硬件的不断发展,基于深度卷积神经网络的目标检测技术相较于传统机器学习方法在准确性和实时性方面都取得了突破性的提升。尽管如此,大多数目标检测模型仍然依赖于高性能的硬件环境,这限制了目标检测技术在更多实时场景下的应用。近两年提出的基于关键点的目标检测方法即anchor-free方法如Corner Net、Center Net等避免了基于锚框的目标检测方法中大量与锚框相关的Io

学位

面向动态时空相关性的交通流速度预测方法研究

交通流速度预测是通过特定方法分析出历史交通流中具有概括性的交通模式,从而自动生成未来交通流速度的过程。准确的交通流速度预测能为管理部门提供合理的决策依据,为驾驶员提供实时的道路状况预警,是交通领域至关重要的问题。交通流数据属于典型的时空数据,因此基于时空特性的预测成为了当前的研究热点。在实际场景中,交通流数据在固定路网的约束和交通事故等外部因素的影响下,具有整体稳定、动态波动的时空特性,给交通流速

学位

基于注意力机制的多模态情感分类模型研究

随着互联网及科学技术的快速发展,越来越多的人使用多模态数据在社交平台或电子商务网站上表达他们的态度或观点。从这些大规模的数据里提取出其中蕴含的情感,可以帮助人们更好地理解用户对某个事件或主题的态度。因此,如何检测多模态数据中包含的情感成为一大研究热点。然而,多模态情感分析至今仍有诸多难点。如在文本图像情感分类任务中存在以下难点:第一,文本图像模态特征异构。文本特征与图像特征在特征空间中是异构状态,

学位

基于模糊理论的属性图聚类方法研究

属性图是由带属性的节点及连接两节点的边所构成的网络,能够广泛地用来表示不同实际应用场景下的诸多复杂系统。作为属性图分析的主要手段,聚类分析的目的是将相似节点划分到同一簇,对更好地理解不同应用中的网络内在组织结构具有重要意义。由于属性图中包含大量的节点属性信息,而传统的图聚类算法很少能够充分地利用属性图中的拓扑信息和属性信息进行聚类以获得具有实际意义的簇。而且,它们大多数无法基于节点和簇之间的隶属度

学位

基于深度强化学习的共享单车调度策略研究

与本文相关的学术论文