基于多智能体深度强化学习的区域交通信号协调控制研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:quixotic
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
城市交通拥堵已经成为了一个日益严重的社会问题,对于公众的出行和整个社会发展都产生了负面影响。为了缓解交通压力,提高交通效率,区域交通信号协调控制成为当前研究的热点问题。针对现有交通信号协调控制研究中的不足,本文提出了一种基于多智能体深度强化学习的交通信号控制方法。采用深度双Q网络模型,通过基于协作式多智能体深度强化学习算法实现交通信号协调控制,仿真实验结果表明,本文提出的方法能有效降低区域内车辆平均排队长度,提升通行效率。本文主要研究内容如下:(1)针对传统深度强化学习算法存在过估计和收敛速度慢等问题,提出了一种基于优先级经验回放的深度双Q学习路口交通控制方法。采用离散化交通状态编码方法将高维实时路口交通信息转化为由车辆位置和速度信息组成的二维矩阵,将路口交通相位压力差作为强化学习的奖励函数,通过优先级经验回放策略,提升训练样本的利用率,加快算法收敛速度。以单路口交通信号控制为研究对象,对所提出的算法进行仿真实验,证明了该算法具有更快的收敛速度和更好的性能表现。(2)针对区域交通信号控制中由于路网复杂性,对控制算法的协调性要求高,提出了一种基于协作式多智能体深度强化学习的区域交通信号协调控制方法。将区域交通路网建模为一个无向图,图中每个结点作为一个强化学习智能体,同时将单智能体强化学习交通信号控制算法扩展到多智能体控制系统,多智能体之间通过共享状态和奖励信息实现协调控制,基于多智能体马尔可夫博弈达到纳什均衡状态。仿真实验表明,该方法能更好地实现对区域交通信号的协调控制,提高了区域路网内车辆的平均速度并减少了交叉口的排队车辆数。(3)本文分析了深度强化学习在交通信号控制的应用现状,构建了一个用于区域交通协调控制实验的交通仿真系统。在SUMO中构建区域交通路网模型,使用Python编程语言实现协调优化控制算法,调用TraCI接口实现两者之间的通信,该系统为交通信号控制算法提供了一个仿真实验平台。通过对实际交通路网建模,利用深度强化学习交通信号控制算法在该系统上仿真实验,本文所提出的区域交通协调优化控制模型及方法能有效减少区域交通延误,提高路网交通效率。
其他文献
根据中国信息通信研究院整理的数据显示,2019年全球生物特征识别技术市场规模约达到了200亿美元,较2015年增长了100亿美元,处于高速发展状态。其中指纹识别市场规模占据了总市场的58%,人脸识别占据了18%的市场,虹膜识别约有7%的市场,其它的识别技术比如掌纹、声音、步态等则占据了剩余17%的市场。由于目前的步态识别算法存在性能不稳定、误差率高等问题,步态识别在实际生活中的应用较少。为此,本文
学位
光治疗包括光热治疗(PTT)与光动力治疗(PDT)。PTT具有高精准性、高特异性和非侵入性等优点,但是肿瘤细胞分泌的热休克蛋白限制了其治疗效果;PDT具有选择性高、耐药性可忽略不计和非侵入性等优点,然而光敏剂产生的活性氧(ROS)寿命短、作用范围小和肿瘤组织的乏氧特征导致治疗效果不佳。气体治疗(GT)作为一种新型的局部疗法,具有气体分子渗透快、对正常组织副作用小和无耐药性等优势。因此,将PTT、P
学位
自然语言处理的发展浪潮正在颠覆着人类的生活方式。命名实体识别作为自然语言处理中的基础任务之一,其识别准确率对后续任务如机器翻译、推荐系统、信息检索等起着不可或缺的作用。其中,中文命名实体识别由于任务的特殊性和语言的普及率,在命名实体识别领域的研究中备受关注。此外,提高模型识别准确率通常需要大量的标注数据集来进行拟合训练,而高质量中文标注数据集的短缺已经成为影响算法性能的瓶颈之一。因此,针对匮乏标注
学位
在大数据的时代背景下,数据潜在的价值使其成为重要的财富之一。数据的非法篡改、修正和分发给追踪数据的泄密源头带来巨大挑战。数字指纹技术可应用在数据泄密溯源领域,即在数据中嵌入一串能够唯一标识用户信息的序列。当数据发生泄密后,提取其中蕴含的数字指纹,从而追踪到泄密的叛逆者。但是,由于传统的数据泄密溯源系统采用的是中心化的存储方案,导致极易受到攻击造成大范围破坏。除此之外,数据泄密溯源过程中存在平台与用
学位
从现代质量工程的角度来看,波动是产品质量竞争力低的根本原因。如何降低产品质量的波动成为了研究的重点。为了提高产品质量,降低成本,我们应该有效地控制围绕目标的变化。控制波动的一种有效方法是参数设计或称为稳健参数设计(RPD)。传统的稳健参数设计(RPD)是离线质量改进的有效工具,其主要应用于物理试验。如果可控因素的最佳设置不理想,离线RPD无法利用新获得的样本更新最佳设置。此外,在实践中,某些情况下
学位
在“微时代”的影响下,微型的学习资源得到支持开发,以满足学习者个性化的学习需求。在近两年新冠疫情防控的背景下,为保障“停课不停学”,教育部更是大力发展网上教学资源,在线教育的需求进一步增大。此外,随着学习者视觉素养的提升,对在线教学视频质量的要求也不断提高。因此,关于教学视频在视觉体验上的优化研究具有重要意义。本研究以视知觉理论和多媒体认知学习理论为基础,参考成熟的视频分析量表,开发视频评价工具,
学位
高校实验室是大学生学习理论知识与实践结合的重要场所,其建设是国家教育现代化的要求,也是高等教育基本技术手段发展的必然。随着“互联网+”时代的到来,高校原有的软硬件设施不断升级改造,既为高校教学仪器设备生产厂商提供了契机,也给企业带来了新的挑战。企业要想在市场竞争日益激烈的环境中保持优势,就必须有核心竞争力,选择合适的竞争战略,同时还需要不断提升运营和风险管理水平,最终能实现企业平稳持续发展。论文通
学位
团队已成为现今多数企业的基本工作形式之一,团队情商体现了团队对情商的认识水平,与个人创新绩效和团队绩效息息相关。不同的团队因为其情商水平不同,团队成员会产生差异化的行为结果。因此,采用跨层次分析方法探讨团队层次的团队情商对个体层次的员工创新绩效的关系具有非常重要的理论和实践意义。论文以团队为研究对象,基于情商理论、社会认同理论、涌现理论等理论的基本观点和研究现状构建了团队情商对员工创新绩效的跨层次
学位
随着移动通信技术的发展,网络设备接入需求量日益上升,对移动数据流量的需要也呈爆炸式增长,传统的多址接入方案面临着巨大挑战。如何利用有限频谱资源提升系统性能并支持大规模设备接入是值得研究的问题。为了解决这个难题,非正交多址接入技术(Non-orthogonal Multiple Access,NOMA)应运而生。通过借助于新的功率域维度,NOMA可以在单个时频域资源上并发传输多个用户的信号,在提高通
学位
目的 分析我国医院循证管理与卫生技术评估的研究热点和趋势,为未来研究指明方向。方法 在中国知网、万方和维普数据库检索相关文献,共纳入548条文献记录,采用NoteExpress 3.3软件进行计量分析,采用VOSViewer 1.6.18软件进行关键词聚类分析,采用CiteSpace 5.8.R3软件进行突变词分析。结果 第一篇文献出现于2001年,2015年开始文献数量激增并总体呈增长趋势;逐步
期刊