面向随机博弈的群体行为演化动力学建模与分析

来源 :云南财经大学 | 被引量 : 0次 | 上传用户:sqe622
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
合作行为广泛地存在于各层次的生命系统中,并在推动物种进化和促进人类社会发展等方面扮演着至关重要的作用。理解合作行为如何在自私个体间涌现一直是一个重要且具有挑战性的问题。过去大量的研究成果为现实世界中普遍存在的合作难题提供了有效的解决办法,但这些研究往往假设收益矩阵在智能体的博弈交互过程中是固定不变的,这种假设是对个体真实交互场景的过度简化,忽略了智能体交互环境的时变性,特别是智能体的行为所导致的环境变化。经济学中著名的公地悲剧就是一个典型的例子,牧民们过度的放牧行为会导致公共草场的退化,使得牧民们在接下来的日子里,面临资源匮乏的问题,而适度的放牧则有利于牧民们对草场资源的可持续利用。在这种智能体的行为与环境之间存在相互影响的场景下,群体行为将呈现怎样的演化动力学特征成为了一个热点问题。随机博弈模型能够刻画这种智能体的行为与环境状态之间的相互依赖性,成为了学者们研究动态环境下群体行为演化的重要模型框架。本文利用统计物理学中的对近似方法对随机博弈中群体行为的演化动力学进行了建模,并基于蒙特卡洛方法开展仿真实验,从而对群体随机博弈的演化与均衡进行分析。本文的研究内容分为以下两部分:第一部分是多智能体随机博弈模型的提出与群体行为演化动力学模型的构建。本文根据真实世界中个体的行为决策与环境之间的关系,提出了一个多智能体随机博弈模型。在这个群体博弈模型中,群体的结构对应一个完全图,每个智能体占据图上的一个节点,每两个智能体都由一条边所连接,每条连边都与一个具有对称状态转移规则的双人随机博弈模型相关联。在每个时间步的交互中,每个智能体都根据自己的策略选择一个动作来与他所有的邻居进行博弈,智能体通过Q学习算法进行策略更新,每条边所关联的随机博弈模型的状态转移由其连接的一对智能体的联合动作和对应的当前状态共同驱动。基于这个多智能体随机博弈模型,本文对群体行为的演化动力学进行建模。本文具体分析了动力学建模中常采用的平均场理论在随机博弈场景下的不适用性,巧妙地使用了对近似方法进行动力学建模,实现对不同智能体的不同数据分布的演化的追踪。本文分别推导出能够描述群体环境状态的演化以及各状态下Q值向量对的条件概率分布的演化的动力学方程,并得到一个能够描述对的概率分布的演化的偏微分方程,通过该动力学模型,便能够对随机博弈中群体行为的演化以及环境状态的演变进行准确的预测。第二部分是动力学模型的实验验证及群体随机博弈的演化与均衡分析。为了验证本文构建的动力学模型的预测能力,并揭示群体在随机博弈中的行为演化特征以及内在机理,本文采用蒙特卡洛方法进行了一系列基于多主体的仿真实验。本文验证了动力学模型在不同的博弈模型设计、初始条件、状态转移规则、群体规模大小以及算法参数下的适用性,也通过实验揭示这些不同的因素对群体行为演化所造成的影响。本文的研究发现,在某些条件下,即使两个博弈单独都不支持合作行为的涌现,但这两个博弈之间的转移却能够显著地促进合作行为演化,这意味着短视的强化学习智能体也能在不断变化的环境中学会合作。本文提出的基于对近似方法的Q学习动力学模型是统计物理学方法在强化学习动力学建模中的一个应用,揭示了统计物理与多智能体强化学习之间的联系。本文的对近似建模方法的关键在于如何求解对的概率分布以及该分布随时间的演化,该方法可进一步地应用于建模更多复杂交互场景下的群体行为演化动力学,也将给相关的动力学建模工作带来启发。通过一系列的实验结果,本研究发现状态转移机制在促进群体合作行为演化方面的重要作用,从而为全球气候变暖和公共资源管理等现实问题的解决提供理论指导。
其他文献
学位
学位
图的对称性可通过其自同构群进行描述.图的一条2-弧是指由三个顶点构成的有序对(u,v,w),使得v与u,w相连且u≠w.如果一个图的自同构群在2-弧集上是传递的,则称这个图是2-弧传递图.2-弧传递图是一类具有高度对称性的图,在代数图论中被广泛的研究.Praeger将2-弧传递图的研究归结于两个步骤:研究顶点拟本原或二部拟本原的基本图,以及研究基本图的覆盖.学者们对小度数和特殊阶的2-弧传递图进行
学位
学位
图的对称性是图论研究中的热门话题,其对称性可以通过图的自同构群刻画.如果一个图的全自同构群在边集上的作用是本原的,则称这个图为边本原图.许多著名的高对称性的图都是边本原图,而且已知的边本原图大部分都是2-弧传递的.边本原图的系统性研究始于2010年Giudici和Li的基础性工作.随后,学者们对小度数或特定阶数的边本原图进行了分类和刻画.特别是阶为素数幂、二倍素数幂、四倍素数幂和两个不相同奇素数乘
学位
近年来,我国经济增速放缓,尤其受新冠肺炎疫情的影响后,我国2020年经济增速为2.75%,2022年仅上升到了3%。在“网络强国、数字强国”的战略指引下,数字技术与传统经济正快速融合,生产要素数字化转型趋势显现。党的二十大指出要推动数字经济与实体经济深度融合,且《数字中国发展报告(2022年)》显示2022年我国数字经济规模达50.2万亿元,占GDP比重41.5%,同比增长10.3%。可见,数字经
学位
社交网络是复杂网络中刻画人与人之间相互交往的网络,如何控制传染病在社交网络中的传播成为网络科学研究的一个重要问题.改变社交网络的拓扑结构可以有效控制和缓解传染病的传播,仅仅中断个体之间的重要联系来控制和缓解传染病的传播往往比隔离个体更方便和节约成本.因此,本文将从网络的拓扑结构出发来重点研究如何识别网络中重要的边,通过移除重要边集来提高传染病的传播阈值.本论文的主要贡献如下.(1)提出了一种基于吸
学位
近年来,随着大数据技术的不断发展,数据的获取以及存储方式变得越来越丰富,同时数据类型也变得复杂多样。在面对响应变量是多元相关性数据时,即响应变量Y(28)(y 1,y 2,(42),y q),且y1,y 2,(42),yq之间存在相关性,这时单纯的应用传统的线性模型以及广义线性模型往往行不通,因此需要引入多元相关响应向量的广义线性模型,同时随着向量广义线性模型的应用场景越来越丰富,在应用过程中就会
学位
对高维数据的降维已成为非参数回归领域中一个重要的问题。充分降维是一种用尽可能少的原始自变量的线性组合替代原始自变量且尽可能少地损失回归信息的降维理论方法。当然,充分降维问题不只适用于一元响应变量模型,也适用于多元响应变量模型。随着所要处理的数据越来越庞大,我们所研究的问题越来越复杂,响应变量是多元的情形经常出现,这使得降低数据维度以建立简洁有效的数据模型尤为重要。由于许多充分降维方法非常依赖数据的
学位
脱贫攻坚的全面胜利消除了绝对贫困,但脱贫摘帽不是我国反贫困进程的终点,相对贫困问题仍然长期存在。由于相对贫困具有多维性和复杂性,其贫困表征不仅体现在收入维度,更体现在了住房、教育、医疗、社会保障等社会资源的匮乏。同时,精准扶贫与脱贫攻坚时期,我国长期开展以教育、医疗、社会保障与就业为主要内容的公共服务供给,大力推动基本公共服务均等化。党的十九大明确提出实施乡村振兴战略,党的二十大进一步提出全面推进
学位