基于多Agent Q学习算法的气候合作策略研究与仿真

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户：yangchengwang0

【摘要】

：

近年来,气候恶化已成为一个不争的事实,全球已经关注了这个问题,并试图携手共同应对气候挑战。但是,气候合作其实是参与国之间为追求个体国家利益而展开的,参与国的理性决定

【作者】

：

濮约庆

【出处】

：

浙江工业大学

【发表日期】

：

2012年期

【关键词】

：

气候合作策略多Agent系统强化学习 Q学习算法博弈论

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,气候恶化已成为一个不争的事实,全球已经关注了这个问题,并试图携手共同应对气候挑战。但是,气候合作其实是参与国之间为追求个体国家利益而展开的,参与国的理性决定了其行为的目标是追求最大化的自身利益。因此,在气候合作中如何实现获得共同目标并能使自身利益得到保障,是参与国家追求的最优策略。本文以气候合作策略为研究对象,通过应用多Agent的强化学习算法来仿真气候合作策略中在不同惩罚率下参与国家的最优策略问题。本文的主要创新工作如下:(1)首先汲取NashQ算法中博弈论博弈均衡思想,提出基于Meta平衡的多Agent Q学习算法,对于Q学习算法通过Meta平衡策略求解Q值,以求解多Agent系统的最优联合策略。并给出了MetaQ算法的理论基础,同时理论分析了MetaQ算法有着能够获得Pareto最优解且算法时间复杂度远低于NashQ算法的优势。通过网格世界游戏实验仿真分析,MetaQ算法有着很好的收敛性,在实验中MetaQ算法收敛的最优移动步数要比NashQ算法快出近6倍。(2)本文对气候合作策略问题进行了研究,把气候合作策略定义为一个非合作的多Agent系统,并给出了其投资模型和惩罚模型。而研究非合作多Agent系统,博弈均衡策略有着其明显优势,所以本文利用基于Nash平衡和Meta平衡的Q学习算法分别对气候合作策略进行了研究。并通过使用NashQ算法和MetaQ算法对气候合作策略进行了实验仿真。由于Meta平衡是纯策略的,如果存在Pareto最优解,Meta平衡必能求解到其最优解,并且Meta平衡点的求解时间复杂度低于Nash平衡点的求解。实验仿真结果表明MetaQ算法比NashQ算法求解气候合作策略在高惩罚概率下收敛速度更快,而在低惩罚率下求得的联合策略要比NashQ算法的更为人性化和具有可信性。

其他文献

基于葡萄酒基质开发的快速多农药残留分析方法

建立了高效液相色谱-四级杆/静电场轨道阱高分辨质谱对葡萄酒中224种农药残留的快速分析方法.对比了稀释、提取、净化步骤对分析结果的影响,分析了各种分散固相萃取剂对待分

期刊

静电场轨道阱质谱高分辨质谱农药残留葡萄酒

我国出口退税制度与环境相关性分析

在经济全球化和贸易自由化的今天,人们越来越关注生态环境问题,可持续发展的观念日益深入人心,贸易和环境问题也逐渐成为国内外的关注焦点。就我国的具体环境现状而言,由于我

学位

出口退税环境保护库兹涅茨曲线

人性化管理理念在手术室护理管理中的应用体会

目的探讨人性化管理理念应用于手术室护理管理中的价值。方法从2016年6月至2017年12月本院收治的手术患者中选取100例作为研究对象,随机分为两个组别,即采取手术室常规护理管

期刊