论文部分内容阅读
建立了以平均排队长度差最小为优化目标的在线Q学习模型.针对控制性能指标相对于临近的配时方案不敏感的特点,提出了以平均排队长度差作为基本单位重新构造奖励函数,目的是拉大各行为对应的Q值差距,提高模型的收敛速度和鲁棒性.集成ExcelVBA、Vissim、Matlab建立了在线仿真平台,作为计算环境对模型进行了计算.利用GPS数据对Vissim软件中车辆加减速度曲线进行了标定.计算结果表明以平均排队长度差作为优化目标能够优化整个交叉口的时空资源,本文建立的在线Q学习模型具有较快的收敛速度和鲁棒性,通过学习能够