论文部分内容阅读
随着城市整体发展速度的不断加快,日趋紧张的交通问题给人们带来了巨大的效率,能源和生命上的损失。为了有效得改变现状,智能交通系统作为主要的解决方案开始受到各界关注,从而迅速发展起来。其中基于强化学习思想的交通信号灯智能控制算法已经成为缓解交通拥堵的主要手段之一,原因在于它对于动态多变的交通网络环境具有较强的适应性。本文从智能交通控制各个角度出发,对基于强化学习的控制算法实现了优化。 在原始控制方案的基础上,给出了新型的交叉口协作方案,为交通控制提供了新的思路。相邻交叉口之间的协作关系并不是简单的信息交互,而是借助博弈论的思想寻找二者之间的纳什均衡点,进一步提高合作的有效性。在这种马尔科夫博弈论控制方案下,交叉口控制器在路网的动态运行过程中并不只是选择局部最优动作,而是通过合作机制选择更有利于全局的控制方案。通过大量的实验证明,该控制方案在控制效果上要优于基于协作图的Maxplus控制方法。 从交通趋势性分析的角度,给出了结合预测分析和车道模型的智能控制方案。在路网中根据每个车道的具体历史交通流量值,为其建立相应的 ARIMA预测模型,并利用该模型进行未来流量的预测。以预测数据为基础,利用车道的动态流量结构模型,分析其交通容量的变化趋势,再完成对整个网络的智能控制。由于该方法既把握了交通流量的趋势性,又考虑网络本身的动态相关性,要更优于原始的TC1控制方法。 考虑到智能控制算法在现实应用中的局限性,提出了在 POMDP条件背景下的优化控制方案。在当前的强化学习控制中,假设交叉口控制器对于与其相关的车道上的车辆信息具有完全的访问权,因而算法适用于完全可观察背景。在实际路网中,由于传感器本身的限制以及外在物理条件的影响,交叉口所获取的信息实际上是不完整的,因而为了实现控制方案在现实交通中的应用,需要研究算法在部分可观察条件下的实现方案。正是基于这一点,对基于 POMDP的强化学习控制进行了研究。在车辆信任状态的基础上给出了如何获取车道信任状态的新方案,并以此为基础,利用所有信任状态实现优化控制方案。