基于深度强化学习的网约车动态路径规划

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户:sgzhou22
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网的快速发展,许多利用手机App打车的网约车平台也应运而生.这些网约车平台大大减少了网约车的空驶时间和乘客等待时间,从而提高了交通效率.作为平台核心模块,网约车路径规划问题致力于调度空闲的网约车以服务潜在的乘客,从而提升平台的运营效率,近年来受到广泛关注.现有研究主要采用基于值函数的深度强化学习算法(如deep Q-network,DQN)来解决这一问题.然而,由于基于值函数的方法存在局限,无法应用到高维和连续的动作空间.提出了一种具有动作采样策略的执行者-评论者(actor-critic with action sampling policy,AS-AC)算法来学习最优的空驶网约车调度策略,该方法能够感知路网中的供需分布,并根据供需不匹配度来确定最终的调度位置.在纽约市和海口市的网约车订单数据集上的实验表明,该算法取得了比对比算法更低的请求拒绝率.
其他文献
针对现有高速铁路中LTE-R通信系统安全评估方法不足且评估过程存在模糊性和灰色性等问题,建立基于集对可拓和改进层次分析法的LTE-R通信系统风险评估模型.从影响通信系统的人、设备和网络等主要方面建立评估体系,确定风险评估指标和评价标准.利用改进层次分析法计算权重,基于集对可拓构建系统风险集对和计算风险联系隶属度,从而判断通信系统风险等级.实例分析表明,使用集对可拓和改进层次分析法可有效和真实反映LTE-R通信系统的风险状态,可为LTE-R通信系统的安全建设系统与风险管控提供理论依据.
为促进矿业领域向信息化、智能化的方向转变,实现对石墨的智能识别尤为关键.针对人工识别石墨花费时间长、效率低等问题,提出了一种改进的AlexNet网络应用于石墨的图像识别.首先通过随机裁剪、依概率水平翻转和归一化处理等手段对数据集进行图像预处理达到数据增强的目的;然后采用激活函数ReLU6压缩动态范围,使算法更稳健;运用批标准化算法进行归一化加快收敛速度;修改卷积核的大小增强泛化能力;在全连接层加上dropout正则化进一步防止过拟合.在仿真实验中,与已有方法进行比较,所给方法降低了损失值,提高了石墨的识别
交通问题不仅影响人们的出行,同时也会带来环境污染以及安全等问题,准确的交通流预测是构建智能交通系统、预防和缓解交通问题的关键.目前的预测方法大多没有考虑到交通流动态的时空相关性、周期性以及线性与非线性等特点.在充分考虑上述因素的基础上,提出一种基于信息增强传输的时空图神经网络模型,主要包含多特征注意力模块、信息增强传输模块、时间注意力模块以及线性与非线性融合模块.其中,多特征注意力模块捕获多种交通特征之间的内在联系,考虑交通流的周期性;信息增强传输模块充分利用了交通网络信息,以增强交通网络的信息传输能力,
传统的空间并置模式挖掘旨在发现空间中实例频繁共存的特征子集.目前空间并置模式的大多数研究都将模式的频繁性作为兴趣度度量.然而,在实际应用场景中,用户往往不仅对特征集的频繁性感兴趣,而且对它的完整性也感兴趣.结合并置模式的频繁性和完整性,提出主导空间并置模式(dominant spatial co-location patterns,DSCPs),目的 是为用户提供一组高质量的并置模式,具体地,在空间并置模式挖掘任务中引入了模式占有度,以衡量并置模式的完整性.我们通过同时考虑模式的完整性和频繁性形式化了主导
随着空间数据体量的持续增长,空间数据所蕴含的价值巨大.传统的数据感知存储技术和处理分析方法已然不能充分挖掘海量空间数据的价值.因此,空间数据智能,一个专注于海量空间数据的研究与应用的多学科交叉的领域,正扮演着越来越重要的角色.介绍了空间数据智能的概念、空间数据智能领域所面临的技术挑战及空间数据智能的关键技术,同时介绍了空间数据智能在社会生活中的典型应用场景,最后对空间数据智能研究的发展做出了展望.
最短路径查询问题已被研究多年,然而,目前已有大部分工作主要集中在普通图上,针对时态图最短路径查询的研究工作相对较少.时态图中,2个顶点之间有多条边,每条边附带有时态区间,记录着边上代表事件的发生时间和结束时间.时态图最短路径查询在城市交通路径规划、社交网络分析、通信网络挖掘等领域有着广泛的应用.由于最短时态路径的子路径不能保证是最优子结构,传统的普通图最短路径计算方法不再适用于时态图.因此提出了基于压缩转化图树(CTG-tree)索引的查询方法,该方法包含预处理和在线查询2个阶段.预处理阶段将时态图转化为
随着RPKI覆盖的域间网络的范围不断扩大,RPKI在实际部署中的数据同步一致性的问题,运维失误和权威机构权力滥用的风险已成为影响RPKI全面部署的主要障碍.本文提出了一种基于事实所有权的RPKI缓存更新冲突检测机制.该机制利用反向RTR协议与RPKI数据层级分发架构进行事实路由起源信息的采集与同步,并通过比较事实路由起源信息与RPKI缓存更新数据检测出冲突的RPKI缓存更新数据,保护了RPKI缓存的真实有效.最后,本文就该机制的数据同步时间效率和检测性能同其他方案进行了对比,实验结果表明本方案有一定的检出
针对基于区块链的果品质量溯源系统中存在的共识算法吞吐量低、时延高、主节点随机选择等问题,本文提出了一种基于积分选择的改进PBFT(practical Byzantine fault tolerance)共识算法.该算法引入积分选择协议,通过对一致性协议、视图转换协议以及垃圾回收机制的优化,提高诚实主节点被选择的概率、减少节点间通讯开销,从而提升共识算法执行效率.同时,在运行垃圾回收机制时,给所有参与节点重新分配积分,达到了动态更改节点数量的目的.实验表明,本文提出的方法在提升共识算法吞吐量和降低时延方面具
空间众包技术在现实物理世界中有着丰富的应用场景,得到学术界和工业界的广泛关注.任务分配是空间众包的主要研究问题之一,即把工人分配给合适的任务.但是现有的任务分配方法大多假设众包工人和空间任务出现的位置和时间是已知的,忽略了真实的众包平台中众包工人和空间任务的动态变化,由于空间众包平台的强时效性,这种情况下设计的分配方式只能得到局部最优分配结果.提出最大价值最小成本任务分配的新问题,目标是对当前和未来的工人进行分配,使用最小的移动成本获得最大的分配价值.为解决这一问题,提出了基于轨迹的任务分布预测方法及基于
影响力最大化问题旨在从社交网络中寻找若干具有高影响力的用户节点(种子),以触发最大化的信息传播规模.目前绝大多数工作认为社交网络中所有用户都拥有相同的影响力推广价值.然而,在基于位置的营销活动中,影响力推广的主体通常为带有位置标签的空间对象,考虑到用户在物理世界中的移动受限问题,空间对象仅能吸引其邻近范围内的潜在用户.因此,为了最大化市场营销潜力,商家通常需要同时拥有多个营销目标,譬如,连锁店企业对旗下的多家门店进行联合推广.不同的推广内容以及不同的影响力种子选择都将对营销推广的效益产生切实的影响.鉴于此