论文部分内容阅读
为了降低交叉口信号控制的部分可观测马尔科夫特性对深度Q学习性能的影响,引入深度循环Q学习,将全连接网络层改为LSTM层,同时针对当前研究中动作空间较小的缺点,改进了动作空间。通过仿真实验,将所提算法与深度Q学习算法、传统的定时控制和Q学习算法的平均延误在三种不同饱和度流量下进行了对比。实验结果表明,改进动作空间的深度循环Q学习算法的性能要优于上述其他三种算法。