基于博弈论和强化学习的交通系统最优调度方法及其应用

来源 :云南大学 | 被引量 : 0次 | 上传用户:dluflonline
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
交通调度优化问题一直是现代智能交通建设所面临的重要挑战之一,支持交通调度优化的支撑技术受到相关领域研究人员的广泛关注,而建立合理的数学模型和可行的方法,又是求解该问题的关键。在有限的交通资源条件下,各个调度路口最大化车流量、最小化平均车辆停等时间的过程,使得路口之间发生利益冲突,多路口的交通最优调度问题是一个博弈问题。在动态、多路口相互影响、且未知博弈效用的交通环境中,求解博弈均衡具有相当的难度。此外,在相邻的调度路口之间,存在一种开放红绿灯配时策略上的不协调冲突。因此,在求解多路口交通调度的博弈均衡过程中,还需要学习这样的“协调约束”知识。支持博弈的强化学习方法为求解复杂动态的多调度路口交通调度优化、并学习到“协调约束”的配时策略提供了可行方案和重要的基础。本文基于博弈论对交通系统进行形式化建模,应用强化学习技术求解复杂的多路口交通博弈均衡。我们以变化的泊松流反映交通环境的动态性;以调度策略下的车辆的通行量作为收益、停等时间作为惩罚,进而学习博弈均衡策略。本文的主要工作及贡献可概括如下:为了能够描述交通系统的动态性,本文以随机过程的方式使用泊松流反映车辆流量随时间的变化,并将其作为最优策略学习中的一个必要的参数。为了学习得到相互协调的约束配时策略,本文以调度路口的车辆通行数目作为收益,车辆的排队等待时间作为惩罚,以最大化收益与惩罚之间的差值为目标,学习最优的配时策略。采用支持博弈均衡的强化学习算法,学习得到了每一调度路口的最优协调的配时策略,最终达到博弈均衡。实验结果验证了本文方法的可行性和有效性。基于本文所提出的理论方法,我们进一步构建了最优交通路口调度系统和交通道路改造预测系统,展示多路口调度策略学习以及道路改造预测,旨在为交通道路的智能管理及决策提供科学的依据。
其他文献
研究了一种以亚硫酸钠-HEDP为主配位剂的无氰脉冲电镀金-铜合金工艺。通过单因素试验考察了镀层表面形貌和沉积速率,并得出电流密度、镀液pH值、镀液温度和搅拌速率的影响规
肖邦是欧洲19世纪浪漫主义音乐的代表人物之一,是波兰音乐史上最重要的人物。他一生的创作大多是钢琴曲,被誉为“钢琴诗人’是历史上最具影响力和最受欢迎的钢琴作曲家之一。
近年来,随着数学课程改革的不断推进和深化,数学教学发生了重大变化,数学教学生活化越来越受到人们的重视。可是现在越来越多的高中学生对数学学习缺乏兴趣,有的甚至对数学学
中国科学院长春光学精密机械研究所是我国老一代科学家王大珩、龚祖同、张作梅等人艰苦创建的我国第一个光学精密机械仪器科研生产基地.它的前身是1952年在长春成立的中国科
电视新闻杂志节目是近年来比较引人关注的一种节目形态,自美国广播公司的《今日》栏目开播至今已经有近60年的历史,在我国的发展也已经有20多年的时间。无论是老牌的《东方时
为了查明燃烧器喷嘴过快腐蚀的原因,通过物理金相观察和腐蚀原理分析,从零件表面腐蚀状态、腐蚀机理、腐蚀形式相继对喷嘴喷头进行了推断。最终确定喷头的工艺缺陷、材料选择、
近年来,酰胺化合物中的C-N键发生断裂,与其它反应物发生交叉偶联反应,引起了人们的巨大关注。鉴于酰胺在有机化学和生物学中的核心地位,这些新方法可能具有深远的影响。随着
<正>近日,郁南县宝珠老区镇大用蛋鹌鹑标准化养殖小区首批25万只鹌鹑已进入产蛋期,标志着该镇精准扶贫产业项目──广东顺诚公司蛋鹌鹑标准化养殖项目开始进入收获期,产业扶
目的探讨改良小切口手术与传统甲状腺切除术治疗甲状腺瘤临床疗效。方法采集2015年4月12日至2018年7月10日收治的68例甲状腺瘤患者随机数字表分组。传统切除组进行传统甲状腺
“中国丹霞”申遗成功后,作为典型特殊地貌类型的丹霞地貌在学术研究以及旅游开发中备受关注。与此同时,伴随着国内旅游观光产业的日新月异,丹霞地貌风景名胜区的营建活动也