论文部分内容阅读
传统用于解决多Agent系统的分层强化学习(Hierachical Reinforcement Learning,HRL),基本上是建立在离散时间多Agent半马尔科夫决策过程(Discrete Time Multi-Agent Semi-Markov Decision Processes,DT-MSMDP)和折扣准则基础上,无法解决连续时间多Agent无穷任务问题。因此本文在连续时间多Agent半马尔科夫决策过程(Continue Time Multi-Agent Semi-Markov Decision Processes,CT-MSMDP)框架下,结合现有的Option算法思想,给出一种在上层采用Agent之间进行宏行动交互,并适用于平均或折扣性能准则的多Agent连续时间Option分层强化学习模型和学习优化算法,用于解决连续时间多Agent无穷任务问题。最后通过以多Agent垃圾收集系统为仿真实例,说明这种分层强化学习优化算法与上层采用联合状态联合宏行动的多Agent连续时间Option算法相比,具有优化精度高、优化速度快和节约存储空间的优势。