基于多Agent Q学习算法的气候合作策略研究与仿真

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:yangchengwang0
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,气候恶化已成为一个不争的事实,全球已经关注了这个问题,并试图携手共同应对气候挑战。但是,气候合作其实是参与国之间为追求个体国家利益而展开的,参与国的理性决定了其行为的目标是追求最大化的自身利益。因此,在气候合作中如何实现获得共同目标并能使自身利益得到保障,是参与国家追求的最优策略。本文以气候合作策略为研究对象,通过应用多Agent的强化学习算法来仿真气候合作策略中在不同惩罚率下参与国家的最优策略问题。本文的主要创新工作如下:(1)首先汲取NashQ算法中博弈论博弈均衡思想,提出基于Meta平衡的多Agent Q学习算法,对于Q学习算法通过Meta平衡策略求解Q值,以求解多Agent系统的最优联合策略。并给出了MetaQ算法的理论基础,同时理论分析了MetaQ算法有着能够获得Pareto最优解且算法时间复杂度远低于NashQ算法的优势。通过网格世界游戏实验仿真分析,MetaQ算法有着很好的收敛性,在实验中MetaQ算法收敛的最优移动步数要比NashQ算法快出近6倍。(2)本文对气候合作策略问题进行了研究,把气候合作策略定义为一个非合作的多Agent系统,并给出了其投资模型和惩罚模型。而研究非合作多Agent系统,博弈均衡策略有着其明显优势,所以本文利用基于Nash平衡和Meta平衡的Q学习算法分别对气候合作策略进行了研究。并通过使用NashQ算法和MetaQ算法对气候合作策略进行了实验仿真。由于Meta平衡是纯策略的,如果存在Pareto最优解,Meta平衡必能求解到其最优解,并且Meta平衡点的求解时间复杂度低于Nash平衡点的求解。实验仿真结果表明MetaQ算法比NashQ算法求解气候合作策略在高惩罚概率下收敛速度更快,而在低惩罚率下求得的联合策略要比NashQ算法的更为人性化和具有可信性。
其他文献
建立了高效液相色谱-四级杆/静电场轨道阱高分辨质谱对葡萄酒中224种农药残留的快速分析方法.对比了稀释、提取、净化步骤对分析结果的影响,分析了各种分散固相萃取剂对待分
在经济全球化和贸易自由化的今天,人们越来越关注生态环境问题,可持续发展的观念日益深入人心,贸易和环境问题也逐渐成为国内外的关注焦点。就我国的具体环境现状而言,由于我
目的探讨人性化管理理念应用于手术室护理管理中的价值。方法从2016年6月至2017年12月本院收治的手术患者中选取100例作为研究对象,随机分为两个组别,即采取手术室常规护理管
研究了不充油的星型和线型SBS的配比,软化剂、硬化剂、填充剂的品种及用量对热塑性弹性体性能的影响,探讨了弹性体的透明性。结果表明:星型SBS对抗张强度的贡献较大,线型SBS
目的:了解聊城市医院剖宫率现状,探讨影响剖宫产率的主要危险因素,为降低剖宫产率、优化分娩结局提供一定的理论依据。方法:采用方便抽样方法,选择2013年5月~2013年8月期间在聊
该文阐述环艺专业建筑模型制作课程教学的重要性,分析建筑模型制作课程教学中存在的问题,提出建筑模型制作课程教学的建议。
本文探讨了无形资产的有关概念和理论,对现行评估方法进行了研究和比较,分析了现行方法存在的问题,提出了改进无形资产评估方法的方向。
介绍热喷涂的工作原理及两种不同形式的热喷涂设备,指出其使用范围及优点与不足,并对三种工艺作了对比分析。
一、影响企业员工凝聚力的主要因素其一,以“经济人观”看待全体员工。在这种观点支持下,企业往往简单地以经济利益作为驱动员工的唯一手段,而忽略了员工的归属需要和成就追
对呼气酒精检测仪进行酒精含量测量的不确定度进行了评定,找出了不确定度的来源,建立了数学模型,对各个不确定度分量进行了评定,得到了其扩展不确定度。