多个交通路口调度博弈模型及其均衡求解的增强学习算法

来源 :云南大学 | 被引量 : 0次 | 上传用户:hdme1958
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
交通设施与道路状况的复杂多变性引起各个路口在相互制约和影响的条件下竞争有限的交通资源,因此多个交通路口调度问题是一个博弈问题。当把交通问题定性为一个博弈问题之后,首先面临的问题即是针对交通路口调度控制的博弈模型的构建,然后基于所构建的博弈模型求解博弈均衡策略。本文着重研究了多个交通路口调度博弈模型及其均衡求解的增强学习算法,大致可以分为以下三个方面: (1)通过分析交通状况的复杂多变性与交通资源的有限性,根据影响交通通行能力的主要因素的相互关系,在博弈论和交通信号控制系统的理论基础上,构造了多个交通路口调度博弈模型。该模型定义了博弈协调中的主体是协调区域内的所有路口Agent;主体所有可能的策略行为集合是交通配时比组合,每一个交通路口可以选择的交通配时方案都属于这个行为集合;主体所获得的利益回报即为每个路口的四个方向上的阻塞强度之和。其中为计算阻塞强度的需要定义了博弈对象表及交通道路因素影响折扣因子,模型中同时也设定了博弈触发机制的阈值向量,从而为博弈算法的调用提供了前提。 (2)在博弈模型框架下,我们对其中的阻塞强度即博弈所获得的利益回报函数进行了特别定义。由于影响每个路口各个方向车辆通行能力的相关因素复杂繁多,为了使算法更具有现实可行性,我们将影响各个方向滞留车辆数的几个典型因素带入算法,对阻塞强度值进行计算,使阻塞强度更加科学客观的反映主体利益。每个路口Agent的阻塞强度Qi有自己的权系数,它是该方向的路段长度、路况、车流量等参数的函数,同时每个参量又有各自的权值以表示它们对道路通行能力的影响程度。根据阻塞强度的定义,本文所述算法的目的就是使阻塞强度达到最优,即阻塞强度的值最小。 (3)基于博弈模型的定义,考虑到交通系统控制处于开放式的动态变化环境中,很难事先得到效用矩阵或效用表,因此我们采用了增强学习方法在动态环境中学习每一个主体路口Agent的效用值,并针对交通调度问题这样一个可以重复博弈的问题,通过试错方式从待选的配时比方案中选出较优的方案。最后通过实验证明了该算法是有效可行的。
其他文献
实体链接是将文本中的命名实体与已有知识库(如百度百科、维基百科等)中对应的实体记录相链接的过程。它能够对文本中的实体信息加以丰富,对于用户和计算机对文本的理解都具
近年来随着民政信息化的建设,民政部门已基本实现了内部的高效管理。然而,相对独立的信息系统,致使丰富的信息资源难以最大限度地发挥作用,“数出多门”,数据不一致等情况时有发生
随着虚拟化技术的快速发展,越来越多的数据中心中部署了虚拟化软件系统。利用虚拟化技术,单个物理机可以被虚拟化成多个虚拟机。多个虚拟机之间相互独立,运行各自不同的操作系统
数据中心是数据传输、计算和存储的中心,为支撑其业务,数据中心内部网络设备需要进行大量的配置。复杂琐碎的网络设备配置耗费了系统管理员巨大精力,整个过程成本高耗时久,人工配
随着现代战争进程的推进,无人机作为一种优良的飞行平台,越来越显示出它的实用价值和巨大优势,世界各国都在争相进行无人机的研究,目前已有众多国家拥有各种无人机。综合控制计算
过去50年中,人工智能研究的主要问题是“单主体静态可预测环境中的问题求解”,其标准问题是国际象棋人-机对抗赛;未来50年中,人工智能的主要问题是“多主体动态不可预测环境中的
RFID(Radio Frequency Identification)也称无线射频识别,该技术利用射频方式进行非接触双向通信和数据交换,以实现目标的自动识别和远程实时监控及管理。随着大规模集成电路技
模拟退火算法(SA)是一种强大的随机搜索算法,它基于对金属冷却和退火的热力学分析。它广泛应用在组合问题。它能解决大多数优化问题,特别是复杂的连续或步连续的问题。它对初始
无线移动通信技术的快速发展不断为大众提供丰富多彩的业务和应用,同时迅速增长的用户需求也推动着技术本身的不断进步。随着人类社会逐渐进入移动信息时代,无线移动通信技术领
随着通信、计算机等技术的飞速发展,特别是远程传输手段的多元化和技术水平的提高,远程数据采集技术正得到越来越广泛的应用。基于无线网络的数据采集涉及传感器、计算机、网络