基于强化学习的城市交通信号控制方法研究

被引量 : 0次 | 上传用户:jlckyang123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
交通拥堵已经成为现代社会尤其是大城市普遍存在的问题。交通信号控制是调节交通网络中交通流的主要方式之一,因此改善和优化交通信号控制方法是解决交通拥堵问题行之有效的方法。交通信号控制问题从根本上来说是一个顺序决策问题。强化学习中智能体通过试错法不断地与环境交互来改善自身行为,将强化学习应用于交通信号控制已经成为一个研究热点。设计并开发基于强化学习的交通信号控制方法实现自适应交通控制是解决交通拥挤和交通拥堵的主要方法之一。在本文的研究中,首先,对基于模型的强化学习在交通信号控制中的应用进行了探索和研究。针对TC-GAC(Traffic Controller with Gain Adapted by Congestion)交通信号控制方法中只考虑局部拥堵因子的缺陷,引入了车辆目的车道的全局拥堵因子,实现了多交叉口控制器Agent之间的简单协作。通过在仿真软件GLD(Green Light District)中进行大量的仿真实验表明,基于全局拥堵因子的方法优于TC-GAC方法。其次,由于强化学习迭代求解的过程极为耗时,本文考虑将启发式强化学习用于交通信号控制问题。通过启发式函数来引导状态动作空间的探索,加快学习速度,改善动作选择策略。大量实验表明,基于启发式强化学习的交通信号控制方法优于TC1方法。在前面的方法中,交叉口控制器仅仅单独地选择局部最优的动作,并不与其他交叉口控制器进行协作或只进行简单的协作。最后,本文给出了一种改进的基于信号灯-交叉口联合动作的协作图模型并将其用于交通建模。通过Max-plus算法实现相邻交叉口控制器之间显著的协作。通过大量实验表明,采用基于联合动作的交通信号控制方法优于TC1方法,值函数采用信号灯-交叉口联合动作的方法优于采用交叉口-交叉口联合动作的方法。
其他文献
例举感应热处理工艺与零件切削等冷加工工艺的相似性,包括单件加工、偏差控制、感应器(刀具)、机床及工艺工序能力等,说明冷加工的生产加工模式和感应热处理的加工生产在很大程
作为传统的大米发酵面点,米发糕用现在的生产技术,既保证了其独特的风味与较高的营养保健功效,而且简单易学。在符合现代食品安全卫生的角度下,本文深入浅出地一一详解糕浆配
<正>售楼处是楼盘推广的重要窗口,它从早期单一销售功能的临时建筑,已发展为现在功能复合,持续运营的社区中心。由于用地紧张,功能单一且无法长期使用,传统的售楼处多为临时
国家怎样对被遗弃儿童提供最佳的养护方式,保证他们的健康成长?这是一个学术界和社会政策界关注并争论已久的问题。本文通过对某市在事实收养家庭长大的孤儿向成年过渡的个案
STEM教育是一种跨学科的综合教育理念和方法,是学生运用多学科知识,在真实情景中开展项目学习,解决真实问题的综合性教育。深入分析小学STEM课程的构建价值与实施内容,有助于
耕地是人类赖以生存的自然资源,它作为一种生产性土地决定着农业发展和国民经济发展的命脉。进入二十一世纪以来,耕地逐渐减少,很多国家提出了耕地保护政策,但大多只注重保护耕地
<正>金融是现代经济的核心,在金融全球化背景下,金融不仅是国际竞争的重要领域,也直接关系到一国的经济发展和社会稳定。特别是在区域经济的发展进程中,金融将发挥愈来愈重要
新媒体时代下,茶叶企业品牌资产建设是企业占领市场,获得竞争优势和顾客忠诚的重要方式。本文通过对茶叶企业品牌资产建设过程系统分析认为其主要问题表现为:(1)品牌经营意识
上世纪80年代,以全球一体化和数字化为特征的信息技术迅猛发展,知识已经成为社会经济发展中的一个非常重要的因素,人类社会因此进入全球知识经济一体化的时代。研发型员工在
改革开放以来,我国逐步放开对于引进外资的各种限制。时至今日,在我国经济持续增长的过程中,外资发挥了十分重要的积极作用。但是,近年来的数据显示我国在引入外资这方面的增长势