论文部分内容阅读
交通拥堵已经成为现代社会尤其是大城市普遍存在的问题。交通信号控制是调节交通网络中交通流的主要方式之一,因此改善和优化交通信号控制方法是解决交通拥堵问题行之有效的方法。交通信号控制问题从根本上来说是一个顺序决策问题。强化学习中智能体通过试错法不断地与环境交互来改善自身行为,将强化学习应用于交通信号控制已经成为一个研究热点。设计并开发基于强化学习的交通信号控制方法实现自适应交通控制是解决交通拥挤和交通拥堵的主要方法之一。在本文的研究中,首先,对基于模型的强化学习在交通信号控制中的应用进行了探索和研究。针对TC-GAC(Traffic Controller with Gain Adapted by Congestion)交通信号控制方法中只考虑局部拥堵因子的缺陷,引入了车辆目的车道的全局拥堵因子,实现了多交叉口控制器Agent之间的简单协作。通过在仿真软件GLD(Green Light District)中进行大量的仿真实验表明,基于全局拥堵因子的方法优于TC-GAC方法。其次,由于强化学习迭代求解的过程极为耗时,本文考虑将启发式强化学习用于交通信号控制问题。通过启发式函数来引导状态动作空间的探索,加快学习速度,改善动作选择策略。大量实验表明,基于启发式强化学习的交通信号控制方法优于TC1方法。在前面的方法中,交叉口控制器仅仅单独地选择局部最优的动作,并不与其他交叉口控制器进行协作或只进行简单的协作。最后,本文给出了一种改进的基于信号灯-交叉口联合动作的协作图模型并将其用于交通建模。通过Max-plus算法实现相邻交叉口控制器之间显著的协作。通过大量实验表明,采用基于联合动作的交通信号控制方法优于TC1方法,值函数采用信号灯-交叉口联合动作的方法优于采用交叉口-交叉口联合动作的方法。