论文部分内容阅读
针对多变环境条件下的交通堵塞问题,将强化学习、神经网络、多智能体和交通仿真技术结合起来,提出了用于优化多路口条件下交通状况的traJectory reward light(TR-light)模型.该方法具有几个显著特点:基于红绿灯拟定交通组织方案;将多智能体强化学习用于红绿灯控制;通过红绿灯的协同达到区域级的交通组织优化;在智能体每次行为执行结束后实施轨迹重构,在OD对不改变的情况下改变车辆行驶路径,根据方案和重构轨迹来计算智能体的最终回报.通过SUMO进行交通仿真实验和交通指标对比,验证了该模型在多交叉口中能够提高路网畅通率,改善交通状态.实验表明该模型可行,可有效缓解交通拥堵.