论文部分内容阅读
机器学习一直是AI领域的研究热点。作为应用广泛的一种机器学习方法,强化学习在单agent情况下的研究已趋于成熟,而在多agent系统中的研究仍处于上升阶段,因为多agent系统本身的复杂性和动态不确定性增加了对学习算法研究的困难。应用数学领域中研究多人交互的对策论理论,为多agent系统中的学习算法的研究提供了一个很好的理论支撑。对策论与马尔可夫决策过程相结合便构建了一个用于研究交互式多agent学习的理论框架——随机对策。 在此框架下的学习研究已经取得了一些成果,如对抗、非合作和完全合作系统中的学习以及重复对策中的学习等。本文针对随机对策框架下完全合作和理性合作的多agent学习进行了研究。 完全合作的多agent系统中,在单agent学习算法的基础上研究偏差技术,并利用多agent系统的信息共享优势,提出了基于先验知识的共享策略学习算法。此外,用于实现学习的神经网络性能也会直接影响学习结果。针对反向传播神经网络收敛速度慢和易陷入局部最优等缺陷,提出利用合作粒子群优化方法对网络权值进行训练。它可以实现快速全局优化,改善网络学习性能从而有益于强化学习的效果。以上两方面都对加快学习速度发挥了很好的作用。 理性合作情况下的多agent学习研究较少,关键问题在于两方面。一方面是目标函数的选择和计算,另一方面是学习过程中的决策协调,二者都在很大程度上影响着学习的效果。在理性合作情况下,提出利用Pareto占优解作为目标函数进行学习,它可以在提高个体理性的同时增加整体理性。为了减小学习过程中用于协调的时间费用和通信费用,而且不影响学习的速度,提出利用社会规则的方法完成学习过程中的隐式协调。制定的一系列互利性社会规则实现了多agent系统决策的统一和较高的整体性能。 采用追捕-逃跑任务作为完全合作多agent学习的应用研究背景。构建一