论文部分内容阅读
近年来,气候恶化已成为一个不争的事实,全球已经关注了这个问题,并试图携手共同应对气候挑战。但是,气候合作其实是参与国之间为追求个体国家利益而展开的,参与国的理性决定了其行为的目标是追求最大化的自身利益。因此,在气候合作中如何实现获得共同目标并能使自身利益得到保障,是参与国家追求的最优策略。本文以气候合作策略为研究对象,通过应用多Agent的强化学习算法来仿真气候合作策略中在不同惩罚率下参与国家的最优策略问题。本文的主要创新工作如下:(1)首先汲取NashQ算法中博弈论博弈均衡思想,提出基于Meta平衡的多Agent Q学习算法,对于Q学习算法通过Meta平衡策略求解Q值,以求解多Agent系统的最优联合策略。并给出了MetaQ算法的理论基础,同时理论分析了MetaQ算法有着能够获得Pareto最优解且算法时间复杂度远低于NashQ算法的优势。通过网格世界游戏实验仿真分析,MetaQ算法有着很好的收敛性,在实验中MetaQ算法收敛的最优移动步数要比NashQ算法快出近6倍。(2)本文对气候合作策略问题进行了研究,把气候合作策略定义为一个非合作的多Agent系统,并给出了其投资模型和惩罚模型。而研究非合作多Agent系统,博弈均衡策略有着其明显优势,所以本文利用基于Nash平衡和Meta平衡的Q学习算法分别对气候合作策略进行了研究。并通过使用NashQ算法和MetaQ算法对气候合作策略进行了实验仿真。由于Meta平衡是纯策略的,如果存在Pareto最优解,Meta平衡必能求解到其最优解,并且Meta平衡点的求解时间复杂度低于Nash平衡点的求解。实验仿真结果表明MetaQ算法比NashQ算法求解气候合作策略在高惩罚概率下收敛速度更快,而在低惩罚率下求得的联合策略要比NashQ算法的更为人性化和具有可信性。