基于多智能体深度强化学习的大规模路口信号灯协同控制研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:jerryby001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着城市中车辆数量的增加,道路的负载变大,城市交通系统中的交通拥堵等问题越来越严重。道路通行能力主要受交叉路口的影响,而路口通行能力受到现有红绿灯控制率的限制,仍然存在较大的优化空间。因此,在现有信号灯的基础上针对城市系统中的大规模路口通行规律进行协同优化具有重要的研究价值。本文基于多智能体深度强化学习(Multi-agent deep reinforcement learning)理论对大规模路口信号灯控制问题进行了研究。本文针对多智能体强化学习算法在大规模信号灯控制方法上的应用展开相关研究,主要工作涉及以下方面:首先探究信号灯决策与交通流耦合机理,提出信号灯控制域的概念,将大规模信号灯控制问题进行建模为马尔可夫决策过程,选取每个路口的信号灯作为智能体,进而根据信号灯控制域定义每个智能体的动作、状态和奖励函数。其次,分别在基于值函数和基于策略的强化学习框架下进行学习。选取两种框架下性能最为优异的Double deep Q-learning和Soft-Actor-Critic学习算法,针对本文研究的多智能体协同决策问题进行学习框架的设计,建立多智能体联合状态和多智能体联合奖励。再次,基于交通流耦合机理提出贪婪决策顺序的多智能体强化学习思想,将其应用到上文的两种经典强化学习架构中。在完成上述工作后,通过SUMO建立大规模信号灯决策与交通流的交互环境,通过python编写深度强化学习算法的训练框架,建立环境函数,与SUMO仿真软件进行联合训练。最终基于所提出算法训练得到深度神经网络决策模型,验证所得到模型在大规模交通路口信号灯控制问题下的性能和算法收敛速度,并与传统多智能体强化学习算法进行对比。本研究提出的贪婪决策顺序的多智能体强化学习算法在对传统多智能体算法进行改进,实现了智能体间的协同,最终训练得到的决策模型能有效提高路口的通行效率。相比于传统优化算法,所训练决策模型具有泛化性能,相比于单智能体深度强化学习算法,能够实现不同路口之间的协同优化,在大规模问题中优化性能更好,相比于传统多智能体算法,简化了问题的维度和复杂度,有更好的收敛速度。本文工作一方面为多智能体深度强化学习算法提供了改进,另一方面为大规模路口信号灯控制问题提供了高效的解决方案。
其他文献
随着当代计算机信息化的不断深入,无论是国外还是国内互联网巨头公司非常看好未来社会对于大数据技术的商业应用前景,因此,寻求技术优势的大型互联网公司的应用实践的新方向是对大数据技术的研究。与此同时,大数据在各个行业和领域的应用也为我们生活的各个方面提供了很多便利。另一方面,与商业领域相比,相关政府部门没有从公共管理的角度深入应用大数据的技术,也没有充分理解大数据应用的实际意义和价值。例如,对于公安机关
微波加热具有升温速度快、加热均匀和热穿透能力强等特点,这些优点启发了用微波加热改良膨胀土的新思路。本文采用工业微波炉对某河道内膨胀土进行了不同时间的辐射加热,研究微波加热时间对膨胀土物理力学性质和膨胀特性的影响规律及其机理,得到的主要结论如下:(1)微波加热会使膨胀土的表观特征和基本物理性质发生变化。随着微波加热时间的延长,土样颜色逐渐变深,由黄褐色向砖红色转变,土样的比重随着加热时间的增加先增大
科氏质量流量计作为一种直接测量流体质量的质量流量计,被广泛应用于物料精确配比、燃料用量控制、贸易经济结算等场合。驱动系统作为科氏质量流量计的核心组成部分,通过提供、调控驱动能量来维持流量管振动,为科氏质量流量计实现精准测量提供基础。模拟驱动系统的科氏质量流量计因其独特优点,在国内被大量生产和广泛应用。但是,在实际应用中,模拟驱动系统的科氏质量流量计依然存在问题。针对模拟驱动科氏质量流量计存在驱动能
沥青路面作为近些年来受到大力推广使用的主要路面结构形式,为人们的出行带来极大便捷、高效的同时,作为国民经济发展的大动脉,也同样影响着一个国家GDP的增长。但是由于受到使用环境和服役期限的影响,沥青路面在服役一段时间后,便会出现不同类型及不同损伤程度的道路病害,根据大量研究发现,这些沥青道路病害的产生都与沥青集料界面相关,因此研究沥青与集料界面的力学性能对提高沥青路面的路用性能具有十分重要的意义。为
随着清洁能源的广泛使用,电动汽车及其相关产业链的发展越来越迅速。目前电动汽车能源补给主要通过充电桩进行。然而当大量电动汽车并入电网充电时必然会对电网的平稳运行造成冲击,影响电网质量,降低电网运行效率。由于同步电机可以为电网提供惯性支持,对电网友好,而虚拟同步电机(virtual synchronous generator VSG)通过改变控制算法来控制逆变器可以模拟同步电机运行,将这一技术应用于电
天然岩体在长期的地质运动和风化作用影响下,内部存在大量的节理、裂隙、孔洞等缺陷。在外荷载的作用下,这些缺陷处容易发生裂缝的萌生、扩展和贯通,从而导致岩体失稳破坏,诱发岩体工程灾害。因此研究裂隙岩体的损伤演化规律和增韧止裂方法对于岩体工程具有重要的意义。基于此,本文结合理论分析、室内实验和数值模拟方法对预制裂隙花岗岩试件开展了力学性质和压缩破坏特性研究,同时研究了裂隙填充物的影响效应。本文开展的主要
我们的身边有很多的网络都可以看作由具有特定功能的个体相互作用形成的复杂网络。复杂网络在近二十年来一直受到来自各个领域的学者的广泛研究。在交通运输领域的复杂网络模型中,节点内的信息包排队规则问题和网络节点的容量问题一直没有引起学者们的重视。信息包的排队方式不仅可以遵循先进先出规则,还可以遵循后进先出规则和随机输出规则。另外,在过去的研究中,节点的容量通常被默认为是无限的。而我们现实中的绝大多数网络的
膨胀土广泛分布于中国二十二个省份和自治区,其具有明显的吸水膨胀和失水收缩工程特性,这常常给工程带来影响,故膨胀土的改良研究对确保工程安全和工程设计具有重大意义。论文通过一维的非饱和直剪试验、三轴试验剪切试验和微观扫描电镜试验对碳纳米管水泥复合改良膨胀土特性开展探究,论文得出的主要结论有:(1)素重塑土与掺加不同浓度的碳纳米管+4%水泥改良膨胀土的非饱和直剪试验结果对比表明:在净法向应力和孔隙压力均
在过去的几年里,中国交通运输事业得到了突飞猛进的发展,路网密度不断提高。随着道路交通线路不断增加,面临的交通安全形势也十分严峻。其中隧道表现出来的安全问题尤为突出,隧道由于其特殊的封闭狭长特点,当车辆在隧道内发生事故起火燃烧时,狭长隧道内的氧气会越来越少,有毒气体增加,能见度低,人员疏散困难。此时,隧道内纵向排烟系统和顶棚排烟系统在控制烟羽流蔓延和温升变化方面发挥了巨大作用。本文主要针对隧道内双火
沥青混合料是由集料、沥青和空隙组成的复合材料,其中集料占据混合料质量的90%以上。在外部荷载作用下,粗集料相互接触形成骨架结构,骨架承担着抵抗和传递外部荷载的作用,骨架结构的力学性能直接影响沥青混合料的抗变形能力。为了表征及评价沥青混合料骨架结构的形态学特征,进而分析其与混合料稳定性之间的关联,本文基于X-ray CT图像,借助计算机图形图像技术,在完成真实集料三维重构的基础上,开发了集料三维接触