基于深度强化学习的交通信号控制研究

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:m116730647
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
城市和经济的发展带来了日益增长的人流和车流,使得交通拥堵问题日益凸显出来。自适应交通信号控制(Adaptive Traffic Signal Control,ATSC)通过优化交通信号控制策略疏通交通流,被科研人员寄予厚望。近年来,强化学习(Reinforcement Learning,RL)作为一种高效的自适应优化控制技术在ATSC领域取得了大量的成果。多路口间的协同控制涉及多智能体间的协作和协调,目前仍是ATSC领域内亟待完善的研究内容。为此,本文将ATSC问题建模为邻居感知型马尔可夫博弈(Neighbor-Aware Markov Game,NAMG)。在该博弈中,各路口被建模为主动学习的智能体,通过与邻域范围内的路口互相协调和策略训练,最终获得全局范围的最优信号灯控制策略。由于城市交通规模普遍较大,无法使用现有流行的集中训练分布式执行框架算法。而在独立训练的多智能体强化学习框架中,智能体将其他智能体当作环境的一部分,通过通信和约定的协议训练最优协作策略,成为了解决ATSC问题的首选。同时考虑到ATSC中路网具有明显的图拓扑结构,本文在现有的独立训练算法Hysteretic DQN的基础上,提出了邻域协调的MARL架构——Neighborhood Cooperative Hysteretic DQN(NC-HDQN)。在该架构中,NC-HDQN智能体根据邻域范围内的轨迹信息分析其与邻居智能体的相关程度,并用该相关程度加权邻居的观测和奖励信息。基于加权后的轨迹信息,各个NC-HDQN智能体使用Hysteretic DQN算法独立地训练协同策略,最终获得最优的联合控制策略。针对路口间相关性计算问题,本文针对性的设计了两个NC-HDQN算法,即基于专家经验的NC-HDQN方法(Empirical NC-HDQN,ENC-HDQN)和基于Pearson相关系数的NC-HDQN方法(Pearson NC-HDQN,PNC-HDQN)。第一种方法假设路口间的相关性与连接两个路口的道路间车辆数目正相关,而第二种方法是利用相邻路口间奖励轨迹的Pearson相关系数自适应地计算每对Agent之间的关联度。为检验本文提出算法和框架的有效性,本文在一个合成交通网络和两个真实的交通网络中进行了实验验证。实验结果显示ENC-HDQN和PNC-HDQN方法在所有现有交通信号控制的评价指标上几乎都优于现有工作,表明本文提出的方法能够更好的应对交通环境中多智能体间的协调问题,显著缓解交通路口的拥堵情况,具有良好的理论和实用价值。
其他文献
在信息爆炸时代,为了能够获取相关事物准确全面的知识,需要借助知识图谱技术进行知识融合。知识融合面向不同知识图谱解决信息交叉与缺失问题,而实体对齐技术作为其首要且关键的一步,是将知识图谱间存在的等价实体建立关联,从而为实体信息共享奠定基础。目前实体对齐相关研究大多只关注实体在知识图谱上的结构和关系知识,对实体的属性和其他多模态知识关注甚少。一方面忽略了知识图谱中实体相关的拓扑结构、属性、关系之间的语
学位
“双高计划”为职业教育新一轮质量革命注入了新动力,对高职院校高质量发展具有非常重要的意义。为提升高职院校服务区域经济发展的能力,以高职院校在区域经济社会发展中社会价值的引领作用为立足点,以完善专业人才培养体系、校企共建教学资源平台、强化新型教师队伍建设的体制机制改革为着力点,以培养“创新创业型”人才、提升区域企业人员技能、加强教师团队参与校企合作为关键点;构建新时代高等职业院校深化教育教学综合改革
期刊
粗糙集可以从海量数据中高效地挖掘出有价值的信息。属性约简是粗糙集理论的一个核心研究内容,它可以有效的辨别冗余属性,减少不相关属性对分类性能的影响。为了解决基于经典粗糙集的属性约简不能直接处理连续型数据的问题,有学者提出邻域粗糙集模型。在邻域粗糙集中,往往通过给定的半径来约束的样本之间的相似性,然而,这种简单固定半径的邻域粒化方式通常不能提供令人满意的判别性能,约简后得到的属性质量不高。因此本文对邻
学位
海产养殖是农业生产的重要组成部分,对促进农业经济发展起着关键作用。海洋牧场作为一种环境友好的养殖方式,是海产养殖业转型的重要手段。在现代化海洋牧场中,对鱼类、贝类经济作物的实时监测必不可少。受益于水下摄像机实时拍摄的高清影像,技术人员不必潜水便可实时监控这类经济作物的生长状况。这极大地方便了技术人员对海洋牧场的统筹和管理,有效避免了资源浪费。然而,水对光的吸收和散射作用会导致水下图像出现模糊、偏色
学位
报纸
随着互联网上Web服务数量的不断增多,如何充分利用用户的历史偏好信息和Web服务的上下文信息来为用户推荐他们感兴趣的Web服务成为了当下Web服务推荐研究的热点,也是本文主要研究的课题。现有的Web服务推荐模型会因为用户与Web服务的交互过少存在矩阵稀疏和冷启动问题,这不仅影响了推荐的精确度,而且还会导致推荐的多样性降低。知识图谱作为结构化的数据可以更为细致地描述用户的历史偏好以及Web服务的上下
学位
报纸
随着互联网和数字技术的发展,商业银行的规模不断扩张,我国也在不断深化商业银行等金融体制的改革,由于国际国内经济形势的日趋复杂,中央和各地政府逐步加大对商业银行的监管。2022年,习近平总书记在党的二十大报告中强调要加强对商业银行金融活动的监管,着重筑牢风险底线,要求地方政府及银保监局等机构依法对金融市场进行规范引导。近年来,商业银行监管成为社会各界关注的热点话题,尤其是商业银行频发问题,引起了民众
学位
软件开发过程中,由于资源受限或者时间不足等原因,开发人员被迫采取牺牲长期代码质量为代价而提交不完整的或临时的代码,即技术债务。技术债务会影响软件的质量、成本和开发效率,需要开发者在未来付出额外时间偿还。其中,自我承认技术债务(Self-Admitted Technical Debt,简称SATD)是表示软件开发过程中开发人员有意引入、留待未来修正的技术债务,这给软件代码安全留下了诸多隐患。因此,多
学位
报纸