论文部分内容阅读
本文以合作式多智能体系统为研究对象,研究应用强化学习对多智能体系统的合作策略进行优化,其中关键问题主要包括学习降维、信度分配与收敛证明三个方面。本文研究的思路来源于强化学习理论,其相关定义以离散环境为基础展开,由于其良好的自学习性质广泛应用于合作式的多智能体系统。同时,随着多智能体系统理论研究的进展,对理论在实际中的应用要求进一步提高。然而,“维数灾”问题突出、学习效率低下以及无收敛性理论保证等阻碍了其在合作式多智能体系统的推广和应用。本文针对合作式多智能体强化学习中的降维、信度分配以及收敛理论三个关键问题进行研究。在分布式强化学习的降维手段基础上,提出一种新的多智能体合作学习框架——交替跟踪学习。一方面通过降维的Q学习缓解维数灾,另一方面基于交替跟踪学习框架提高学习效率的同时保证合作策略的收敛,并实现学习智能体的信度分配。此外,针对分布式的多智能体同时学习进行了初步的探讨。首先,以强化学习基本理论框架为对比基础,结合分布式多智能体合作学习环境,定义了新型的降维的奖励以及值函数。从适应性角度分析了最佳响应学习的合理性,假设非学习智能体策略稳定环境下,提出了降维的最佳响应学习算法,并证明了其收敛性。其次,在定义降维跟踪学习值函数的基础之上,提出一种交替跟踪的分布式多智能体合作学习框架,并重点分析了框架的策略搜索、降维、同时学习等特点。并针对实际应用,给出了框架下多智能体进行交替学习的切换机制。此外,在个体奖励已知情况下,将现有的最佳响应算法融入交替跟踪框架,形成一种完全合作式的分布式多智能体强化学习算法。个体奖励相同条件下,多智能体合作推箱子作为仿真对象,验证了所提算法的正确性和有效性。再次,为进一步扩展算法的应用范围,针对一般的合作式多智能体系统,个体奖励未知情况下,提出采用随机逼近方式获取学习智能体的个体奖励以实现信度分配。同样,建立在交替跟踪的交替学习框架下,结合基于信度分配的最佳响应学习算法,克服了个体奖励的逼近问题,提出了一般合作式多智能体系统的强化学习算法。以多智能体合作推箱子作为仿真对象,在信度分配未知下,验证了所提算法的能有效逼近个体奖励并获得较好的学习效果。最后,针对多智能体完全合作环境下学习速度慢及收敛效果不佳问题,提出了基于分布式强化学习的二阶段适应学习方法,依次实现了智能体对环境的适应以及系统内部的协作,有利于大规模空间环境下的实际应用问题。三连杆捉取物体的仿真验证了所提算法的高效性。图15幅,表3个,参考文献64篇。