论文部分内容阅读
近年来,大众旅游出行需求呈多样性和复杂性增长态势,旅游出行类手机应用软件层出不穷,出行路径规划问题成为当今社会关注的热点。现有的电子地图大都采用以深度优先或广度优先为主的路径规划算法为用户规划出行路线。然而,具体的出行路线复杂多样,用户需求各不相同,泛化能力差、难以满足用户多样化的需求是现有路径规划算法实用化的主要难题,具体表现是:第一,安全系数不足,现有方法主要以最短路径为首要优化目标,对于路径安全性能这一重要因素考虑不周;第二,应用灵活性差,不支持自定义选择多个目的地,无法满足用户个性化全程路径规划需求;第三,数据利用率低,现有方法大多只考虑用户与目的地的位置信息,并未采用政府、交通部门等公开的多源数据,难以为用户规划一条安全舒适的行进路线。针对上述问题,本论文研究并实现了基于强化学习的智慧出行路径规划算法。
首先,为满足用户行进安全性的需求,本论文提出了基于策略引导机制的Q学习安全路径规划算法。该算法利用地图路网数据和政府公开的犯罪数据,研究了基于安全指数的强化学习奖励函数,并将安全路径规划问题建模为马尔可夫决策过程;然后结合基于人工势场函数的策略引导机制的启发式探索方法,完成单目标点安全路径规划任务。实验结果表明,本论文提出的算法在权衡安全性和行进距离短两个目标方面取得了较好的性能,同时该算法收敛时间比采用贪婪探索策略降低了31.52%。
接下来,为满足用户历经多个目的地且全程路线最短的需求,本论文提出了基于深度强化学习演员评论家(Actor-Critic,AC)的多目标点路径规划算法。该算法基于指针网络(Pointer Network,PtrNet)和长短时记忆单元(Long Short-Term Memory, LSTM)构建策略网络和评价网络,采用AC优化的训练方式更新策略网络和评价网络参数,减轻了算法模型对大量高质量标签数据的依赖,同时通过预训练的方式加快深度强化学习算法的收敛速度,最终完成多目标点访问顺序路径规划任务。实验结果表明,与基于遗传算法和距离矩阵映射的多目标点路径规划方法相比,本论文提出的算法可以有效缩短多目标点总路径长度。
本论文研究并实现的基于强化学习的智慧出行路径规划算法可广泛应用于电子地图等旅游出行软件,为用户提供个性化出行路径规划服务。
首先,为满足用户行进安全性的需求,本论文提出了基于策略引导机制的Q学习安全路径规划算法。该算法利用地图路网数据和政府公开的犯罪数据,研究了基于安全指数的强化学习奖励函数,并将安全路径规划问题建模为马尔可夫决策过程;然后结合基于人工势场函数的策略引导机制的启发式探索方法,完成单目标点安全路径规划任务。实验结果表明,本论文提出的算法在权衡安全性和行进距离短两个目标方面取得了较好的性能,同时该算法收敛时间比采用贪婪探索策略降低了31.52%。
接下来,为满足用户历经多个目的地且全程路线最短的需求,本论文提出了基于深度强化学习演员评论家(Actor-Critic,AC)的多目标点路径规划算法。该算法基于指针网络(Pointer Network,PtrNet)和长短时记忆单元(Long Short-Term Memory, LSTM)构建策略网络和评价网络,采用AC优化的训练方式更新策略网络和评价网络参数,减轻了算法模型对大量高质量标签数据的依赖,同时通过预训练的方式加快深度强化学习算法的收敛速度,最终完成多目标点访问顺序路径规划任务。实验结果表明,与基于遗传算法和距离矩阵映射的多目标点路径规划方法相比,本论文提出的算法可以有效缩短多目标点总路径长度。
本论文研究并实现的基于强化学习的智慧出行路径规划算法可广泛应用于电子地图等旅游出行软件,为用户提供个性化出行路径规划服务。