基于联邦深度强化学习的智能交通信号控制算法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:qq1094795388
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
智慧交通是未来城市的必然发展趋势,交通拥堵作为制约社会发展的重要因素之一,是智慧交通中亟需解决的问题。对交通信号进行智能控制能有效缓解交通拥堵。近几年,基于深度强化学习的智能交通信号控制研究受到了学术界和工业界的热切关注,但同时也面临使用单一数据进行训练导致的学习效率低、模型鲁棒性差等问题。因此,本文基于联邦强化学习方法开展跨域智能交通信号控制算法研究。首先,本文提出了一种基于联邦强化学习的跨域智能交通信号控制架构,进行跨域的智能体分布式联合训练,旨在解决深度强化学习中学习速度慢、模型泛化能力差的问题。该架构能够应用于跨域的多交叉口或多路网等多种信号控制场景。随后,本文先针对单交叉口场景提出了基于联邦近端策略优化(Proximal Policy Optimization,PPO)的交通信号控制方法,在四种交通流量环境下分别训练单独PPO、使用联邦协作机制的联邦PPO以及使用所有本地数据的聚合PPO智能体。实验结果表明,在相同收敛高度下,联邦PPO的收敛速度平均比单独PPO快47.69%,比聚合PPO快45.35%。同时联邦PPO相比固定配时法平均减少27.34%的车辆平均等待时间,在各种交通流量设置下均能有效优化交叉口通行效率,具有良好的鲁棒性。接下来,本文将单交叉口场景扩展至路网场景,提出了基于联邦多智能体近端策略优化(Multi-Agent Proximal Policy Optimization,MAPPO)的交通信号控制方法。研究发现,随着路网规模逐渐增大,联邦MAPPO仍能有效提升智能体的平均收敛速度,但程度逐渐从35.31%下降至21.07%。此外,其额外所需的通信资源和延时也随着路网规模的增大而增大。在多种路网规模下的测试实验中,联邦MAPPO对路网通行效率优化效果均优于所有单独MAPPO智能体。研究结果表明,本文提出的基于联邦强化学习的跨域智能交通信号控制架构相较于在单一环境中训练的强化学习智能体,不仅能够使得模型收敛速度提升,同时也能使模型泛化能力和稳定性提高,但该架构需要高速通信网络作为支撑。本文为区域间进行合作智能交通信号控制提出了一种可行的解决方案,为日后建立起保障数据隐私的跨域联邦智慧交通平台提供了技术支撑。
其他文献
随着工业互联网的快速发展,工业领域拥有大量记录设备生产状态的传感器数据,通过对这些数据的挖掘与分析,可以帮助企业发现生产规律,节能增效,提高生产力。工业数据维数多,呈时间序列排布,且不同变量的数据之间依赖性强、关系复杂,可以归纳为共演进时序数据。由于图神经网络在处理依赖关系上表现出色,当前对共演进时序数据的研究通常把变量当做图节点,把变量间的关系建模为图结构来捕获不同变量之间的相互影响关系。变量间
学位
随着桥梁事业的快速发展,桥梁的安全检测任务变得愈加重要。钢结构桥梁是现代桥梁的常见形式之一,螺栓是钢结构桥梁的主要连接方式,螺栓松动、脱落等缺陷属于钢结构桥梁的常见病害,螺栓缺陷会对桥梁的安全运营及民众的生命财产安全造成巨大隐患。在此背景下,研究一套针对桥梁螺栓的缺陷检测算法具有重大意义。目前的桥梁螺栓缺陷检测以人工检测为主,成本高且维护人员工作时存在安全风险。本文提出了一种基于深度学习的桥梁螺栓
学位
随着毫米波雷达的蓬勃发展,现代工业对毫米波雷达测距分辨率的要求越来越高,因此超分辨率测距算法应运而生。测距的基础分辨率是光速除以两倍扫频带宽,因此超分辨率测距是指测距的分辨率优于基础分辨率,从而提升对相干目标的分辨能力。本文为了提升调频连续波(Frequency Modulation Continuous Wave,FMCW)毫米波雷达的测距分辨率,利用差频信号的频率和相位信息引入相干频谱的理论模
学位
随着科技的发展与进步,越来越多的车辆配备了无线收发器并成为车联网的一员。然而,由于车辆的计算和缓存能力有限,仅靠其携带的资源难以满足自身的驾驶和娱乐需求。多接入边缘计算(Multi-Access Edge Computing,MEC)技术将部分车辆任务转移到较近的边缘服务器来减轻车辆的计算和存储压力。但是由于车联网的复杂性、动态性和脆弱性,导致为车联网环境中设计出高效、环保、安全的计算卸载和缓存联
学位
在科研领域中,科研机构间合作开展研究的现象十分常见,并且这些合作的紧密程度往往呈现出社区化的特点。科研合作社区通常由机构间过往合作行为形成,当两所科研机构处于同一个合作社区时,将更容易频繁地开展新的合作。为了发现科研机构间潜在的合作社区分布,本文基于科研影响力构建了包含多种合作关系的多路科研机构合作网络,并设计了高阶社区级互信息最大化模型(High-order Deep Community Inf
学位
在科研领域,以知识图谱的形式组织科研管理数据有利于推动科研管理工作的进步。科研管理知识图谱的构建依赖于人工输入,其与许多大规模知识图谱一样存在信息缺失的问题。针对该问题,以预测缺失事实为目标的知识推理任务应运而生。近年来主流的知识推理技术围绕嵌入方法展开,然而,现有的嵌入模型大多忽略了有价值的实体类型信息,且在聚合邻域信息时不够精确,无法适应科研管理知识图谱的数据特性,从而导致推理效果不理想。本文
学位
光场调控器件在军事和民用领域有众多用途,对它们的结构参数进行优化设计,能够使其性能超过传统器件。然而,传统优化设计方法存在依赖人工经验、仿真时间长、人工调整难以全局优化等缺点。近年来,机器学习在光场调控器件结构优化研究中展现出高效、便捷的优点。本文聚焦叠层太阳能电池和偏振转换器件这两类在新能源和成像领域有重要作用的光场调控器件,对其结构参数展开智能优化研究。本文首先优化一种钙钛矿/晶体硅(c-Si
学位
激光遥感具有空间分辨率率高、测量范围大、穿透性强的优势在海洋遥感中有着越来越重要的价值。其中,基于布里渊散射的激光雷达能够实现海洋次表层温盐遥感而受到广泛关注。在现有的布里渊激光雷达技术中,基于多边缘技术的测量方式具备大规模遥感海洋温盐垂直剖面分布的能力。目前该测量方法已经完成了理论构建和仿真实验分析,本文的目的是进一步推进该方法从理论向实际应用的发展。为了将该布里渊温盐测量理论推进到实际应用阶段
学位
红外弱小目标检测是红外搜索与跟踪等系统的关键技术,对于提升未来战争中的预警、制空和反击等能力具有重要的价值。通常由于探测距离远和成像环境复杂,目标具有尺寸小、特征少和信噪比低等特点,给其检测带来了不小的困难。目前,基于低秩稀疏的红外弱小目标检测算法具有良好的检测性能,但也存在对局部和非局部特征利用不充分以及对背景低秩逼近不准确的不足,其场景泛化以及抗噪声和稀疏干扰能力仍有待提升。本文分析了不同场景
学位
5G网络建设成本高昂,70%的成本投入在无线接入网。传统无线接入网,采用封闭式系统架构设计,极大推高了建网费用。开放式无线接入网(Open Radio Access Network,O-RAN)旨在打破设备商的垄断,降低接入网的建设成本。网络切片技术是5G的关键性技术,通过在实际的物理网络上切分出多个逻辑网络,来满足不同业务对网络的需求。目前O-RAN网络架构及协议仍处在演进过程中,面向异构流量传
学位