基于重复博弈的多智能体强化学习动力学研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:ADCADC111111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着群体智能的广泛应用,多智能体强化学习已成为目前的一个重要研究课题。在多智能体强化学习中,智能体通过强化学习的反馈机制来学习最佳策略。大规模智能体之间的动态交互以及非确定性的环境,导致了多智能体强化学习的复杂性。在学习过程中,很难预测智能体的最佳行为决策。对多智能体系统建立动力学模型,可以定性地洞察系统的演化,帮助理解智能体的行为决策。由于智能体数量带来的计算空间维度爆炸以及动态交互的复杂性,目前的研究主要采用平均场方法来近似智能体的相互作用,将系统中所有智能体的平均策略近似为对手的策略。然而在实际应用场景中,这种近似不一定有效,总体的平均策略和对手的策略存在不同程度的差距。为了更加准确的描述智能体的演化,本文结合博弈论和复杂网络对智能体的局部交互和连接拓扑展开研究,提出两个多智能体强化学习模型:(1)提出了一个基于重复博弈的多智能体Q-Learning学习模型。在包含大量智能体的多智能体系统中,智能体使用对称正则博弈作为交互方式,使用Q-Learning的Boltzmann探索来学习最优策略。通过推导个体的Q值变化量和群体的Q值密度变化,建立了一个动力学方程组来捕捉智能体的学习过程。通过智能体仿真验证,在不同博弈以及不同的参数设置下,本文的动力学模型都可以准确的描述智能体行为的演化进程。在设置不同初始策略的情况下,智能体都能通过学习收敛到纳什均衡策略,验证了模型的稳定性。(2)提出了一个基于随机图的多智能体强化学习博弈模型。在本模型中,智能体之间的连接拓扑用一个图来表示,智能体通过Qlearning算法学习策略。通过理论推导对模型的准确性和泛化能力进行了验证,在不同的连接拓扑下,本文的模型预测的Q学习动力学始终与基于仿真的实际结果相匹配。实验主要研究了规则网络和不规则网络对智能体学习的影响。在规则网络上,所有智能体的度都等于6),6)越小,囚徒困境博弈中的智能体越容易产生合作。在不规则网络中,也发现了相似的结果,整个网络的平均度越小,智能体越容易合作。
其他文献
学位
工程监理主要就是全面地监控负责的项目,保障各个要素处于一个稳定的状态,其中要借助监理来增强协调,提升项目效益。在工程项目时期通过进行工程造价监理工作,有助于更加全面地监理材料和设备,并且正确进行全过程的监理,在决策时期、施工时期和竣工时期等阶段做好监理工作。我国部分建筑工程造价管理人员对于监理工作没有一个正确的认知,因此,需要提升工作人员的个人意识,促进工程监理和工程造价控制的联系,确保工程造价管
期刊
新时代背景下,社会对学校教育的内容要求不仅局限于课堂知识的传授,还越来越关注学生在班级中的个人成长以及综合能力的培养。班级是学生的“主战地”,也是学校管理学生的“前线”。如何有效的管理班级是班主任重点关注的事项,有效的班级管理能够提高教育质量。班级目标管理应具有科学性,班主任应当指导学生将自身奋斗目标与班级目标相结合,从而更好的促进学生全面发展。与此同时,班级目标管理因其具有明确的目标导向、广泛的
学位
对于每位教育工作者、家长乃至整个社会来说,家校合作都是熟悉不过的词语。家校合作是以学校为主导发起、教师和家长共同发力、促进学生全面发展的活动。无论基于传统文化,还是现实情况,家长参与儿童学校教育都是被强烈鼓励的。因为家长作为家校合作的参与主体,其是否积极参与会影响家校合作的实践。随着新媒体技术在学校的广泛应用,家校间合作大多采用微信作为沟通工具,发布多种多样的合作内容。自从2019年年底新冠疫情爆
学位
目的 采用酵母膏联合氧嗪酸钾构建雌性大鼠和雄性大鼠高尿酸模型,观察持续高尿酸血症对雌性和雄性大鼠血清生化指标及心脏、肾脏、尾动脉和主动脉的病理改变的影响。方法 以酵母膏21 g/(kg·d)给予喂养,氧嗪酸钾以200 mg/(kg·d)持续腹腔注射28 d建立高尿酸血症雌性和雄性大鼠模型。结果 酵母膏21 g/(kg·d)喂养联合氧嗪酸钾200 mg/(kg·d)持续腹腔注射28 d,雌性大鼠血清
期刊
为了探究成都兴隆湖水生态修复前后浮游动物群落结构特征及水体富营养化水平关系,于2020年9月、2021年9月、2022年9月分别对兴隆湖浮游动物进行了调查研究,结果显示:1)浮游动物现存量评价结果在2021年9月生态修复完成初期富营养化情况较2020年9月生态修复前有所加重,但在2022年9月生态修复一年后,水体的营养程度得到有效控制,营养类别达到了贫营养状态;2)生物多样性指数显示,在修复完成初
期刊
自2012年以来,以深度神经网络为代表的深度学习事实上已经成为了人工智能领域的主流。计算机视觉领域的对抗样本也逐渐引起众多学者的关注和研究。对抗样本和自然样本的欧氏距离极小,以至于人类无法对其做出语义上的区分,然而却能以较高的置信度致使模型错误识别。对抗样本是计算机视觉领域一直难以解决的问题,它的存在对人工智能安全造成了严重的威胁。有多种手段可以在一定程度上防御对抗攻击。例如可以预先检测输入的图像
学位
自上世纪90年代以来,杭州求是小学率先在全国探索集团化办学,并树立成功的范例,集团化办学的热潮逐步兴起。作为我国基础教育办学的新形态,集团化办学在推进义务教育发展方面发挥着积极的作用,在深入创新发展的过程中,集团化办学逐渐扩大。目前,我国义务教育已经实现基本均衡,处于向优质均衡转变的阶段。在这一现实背景下,昆明市也结合区域实际,紧随其后推进集团化办学,但在实施过程中仍面临诸多困难,因此,研究昆明市
学位
易地扶贫搬迁是近年来我国实施精准扶贫工作的重点项目之一,是适用于“一方水土养不起一方人”区域的专项扶贫项目,此类工作的主要目标,即依靠“挪穷窝”、“换穷业”等措施的有效推进,进而达成“拔穷根”之效果,有助于搬迁群众能尽快脱离贫困的境况。关于搬迁,一方面是贫困群体在地理位置上的转移,另一方面也是他们生活模式的重建、城乡格局的重构以及社会关系的重塑,此类特殊的宏观环境中所出现的移民子女群体具有一定的特
学位
<正>近年来,大型语言模型技术不断飞跃,海内外互联网企业在人工智能领域的技术开发及迅速扩张为大语言模型的技术进步与应用落地开拓蓬勃发展的空间。1.大型语言模型的定义及特征大型语言模型(Large Language Model,LLM),即利用大规模语料数据进行预训练的预训练语言模型(Pre-trained Language Models,PLMs),是自然语言处理(Natrual Language
期刊