论文部分内容阅读
交通调度优化问题一直是现代智能交通建设所面临的重要挑战之一,支持交通调度优化的支撑技术受到相关领域研究人员的广泛关注,而建立合理的数学模型和可行的方法,又是求解该问题的关键。在有限的交通资源条件下,各个调度路口最大化车流量、最小化平均车辆停等时间的过程,使得路口之间发生利益冲突,多路口的交通最优调度问题是一个博弈问题。在动态、多路口相互影响、且未知博弈效用的交通环境中,求解博弈均衡具有相当的难度。此外,在相邻的调度路口之间,存在一种开放红绿灯配时策略上的不协调冲突。因此,在求解多路口交通调度的博弈均衡过程中,还需要学习这样的“协调约束”知识。支持博弈的强化学习方法为求解复杂动态的多调度路口交通调度优化、并学习到“协调约束”的配时策略提供了可行方案和重要的基础。本文基于博弈论对交通系统进行形式化建模,应用强化学习技术求解复杂的多路口交通博弈均衡。我们以变化的泊松流反映交通环境的动态性;以调度策略下的车辆的通行量作为收益、停等时间作为惩罚,进而学习博弈均衡策略。本文的主要工作及贡献可概括如下:为了能够描述交通系统的动态性,本文以随机过程的方式使用泊松流反映车辆流量随时间的变化,并将其作为最优策略学习中的一个必要的参数。为了学习得到相互协调的约束配时策略,本文以调度路口的车辆通行数目作为收益,车辆的排队等待时间作为惩罚,以最大化收益与惩罚之间的差值为目标,学习最优的配时策略。采用支持博弈均衡的强化学习算法,学习得到了每一调度路口的最优协调的配时策略,最终达到博弈均衡。实验结果验证了本文方法的可行性和有效性。基于本文所提出的理论方法,我们进一步构建了最优交通路口调度系统和交通道路改造预测系统,展示多路口调度策略学习以及道路改造预测,旨在为交通道路的智能管理及决策提供科学的依据。