论文部分内容阅读
针对多agent系统强化学习中,状态空间和动作空间随着agent个数的增加成指数倍增长,进而导致维数灾难、学习速度慢和收敛性差的问题,提出了一种新型的混合强化学习方法,用于改进传统的多agent协作强化学习;该算法基于Friend—or—Foe Q-学习,事先采用聚类分析法对状态空间和动作空间进行预处理,降低空间维数后再进行强化学习,这就避免了同等状态环境下的重复劳动和对动作集的盲目搜索,理论上大大提高了agent的学习速度和算法的收敛性;文章首先进行改进算法的思想概述,然后给出了改进算法的学习框架和算法