论文部分内容阅读
交通设施与道路状况的复杂多变性引起各个路口在相互制约和影响的条件下竞争有限的交通资源,因此多个交通路口调度问题是一个博弈问题。当把交通问题定性为一个博弈问题之后,首先面临的问题即是针对交通路口调度控制的博弈模型的构建,然后基于所构建的博弈模型求解博弈均衡策略。本文着重研究了多个交通路口调度博弈模型及其均衡求解的增强学习算法,大致可以分为以下三个方面:
(1)通过分析交通状况的复杂多变性与交通资源的有限性,根据影响交通通行能力的主要因素的相互关系,在博弈论和交通信号控制系统的理论基础上,构造了多个交通路口调度博弈模型。该模型定义了博弈协调中的主体是协调区域内的所有路口Agent;主体所有可能的策略行为集合是交通配时比组合,每一个交通路口可以选择的交通配时方案都属于这个行为集合;主体所获得的利益回报即为每个路口的四个方向上的阻塞强度之和。其中为计算阻塞强度的需要定义了博弈对象表及交通道路因素影响折扣因子,模型中同时也设定了博弈触发机制的阈值向量,从而为博弈算法的调用提供了前提。
(2)在博弈模型框架下,我们对其中的阻塞强度即博弈所获得的利益回报函数进行了特别定义。由于影响每个路口各个方向车辆通行能力的相关因素复杂繁多,为了使算法更具有现实可行性,我们将影响各个方向滞留车辆数的几个典型因素带入算法,对阻塞强度值进行计算,使阻塞强度更加科学客观的反映主体利益。每个路口Agent的阻塞强度Qi有自己的权系数,它是该方向的路段长度、路况、车流量等参数的函数,同时每个参量又有各自的权值以表示它们对道路通行能力的影响程度。根据阻塞强度的定义,本文所述算法的目的就是使阻塞强度达到最优,即阻塞强度的值最小。
(3)基于博弈模型的定义,考虑到交通系统控制处于开放式的动态变化环境中,很难事先得到效用矩阵或效用表,因此我们采用了增强学习方法在动态环境中学习每一个主体路口Agent的效用值,并针对交通调度问题这样一个可以重复博弈的问题,通过试错方式从待选的配时比方案中选出较优的方案。最后通过实验证明了该算法是有效可行的。