基于强化学习的多智能体系统公平性的研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:huhuairen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
公平性是许多多智能体系统的关键,将公平性引入多智能体系统可以帮助多智能体系统变得高效和稳定。例如,在交通瓶颈中,需要将上游的通行量均匀地分配给下游,以照顾每个驾驶员的感受;在路由中,需要将链路带宽公平地分配给数据包,以实现负载的均衡。强化学习已经广泛地应用于多智能体系统领域。然而,大多数的工作都是基于功利主义公式或独特的共同奖励信号,与公平性没有直接的关系。也有少量的工作关注奖励公平分配的问题,但是,同时优化效率和公平是一个复杂的、多目标的、联合策略优化问题,随着环境中智能体数量的增多,智能体之间的交互更加复杂,效率和公平的冲突更加明显,会给学习过程带来更大的挑战。本文基于现有的多智能体强化学习算法,对多智能体系统公平性进行了研究,具体的研究内容包括以下两部分:(1)针对如何在复杂的环境下降低学习的困难度,本文提出了基于奖励塑造的公平的多智能体强化学习算法。用个性化的奖励很难衡量系统整体的性能,利用一个全局的广义基尼社会福利函数来判断每个智能体动作的好坏,通常会导致信用分配问题。通过奖励塑造设计合理的个性化的奖励,结合广义基尼社会福利函数,能够更好的指导智能体做出决策。本文引入了人工场的思想,将环境建模为电势场,将智能体受到的电场力作为额外的奖励。进一步的,本文还将具有变化权重的个体收益作为额外奖励,以指导智能体在效率低时更加关注个体收益。通过奖励塑造的方法,对智能体行为做出合理的个性化指导。在马太效应抽象出来的游戏场景中,验证了两种基于奖励塑造的公平的多智能体强化学习算法的有效性。(2)虽然基于奖励塑造的公平的多智能体强化学习算法能够降低学习的困难度、缓解公平和效率两个目标的冲突,然而,奖励塑造的方法通常需要专家经验,同时可能会改变最优策略,并且需要人工调参。为了解决以上问题,本文提出了基于课程学习的公平的多智能体强化学习算法。该方法提出了学习全局的公平和效率应该是阶段性的,第一阶段:智能体学会如何追求效率;第二阶段:提出了一个软公平阶段作为中间阶段;第三阶段:追求全局的公平和效率,通过三阶段的课程学习将困难的学习过程分解,使智能体学习全局公平的过程更加平滑。本文在多种复杂的多智能体环境中进行了实验,验证了基于课程学习的公平的多智能体强化学习算法能够降低学习的困难度。
其他文献
随着科学技术的不断发展,对先进材料的需求也快速增加。以光学玻璃、激光晶体和陶瓷基复合材料为代表的硬脆材料具有高硬度、耐高温、耐腐蚀等优异的机械、物理和化学性能。采用硬脆材料加工而成的薄壁结构件具有重量轻、节约材料、结构紧凑等优点,在航空航天、光学、微电子等领域应用广泛。本文针对硬脆材料薄壁构件加工效率低,最优加工参数难以选取等问题,开展了超声辅助磨削硬脆材磨削力研究,提出加工应力约束的硬脆材料薄壁
学位
采用二次实验有助于激发学生自主学习、自发探究新问题,培养学生的创新思维,提高学生的科学素养。以人教版高中物理“测定金属电阻率”实验为例,证实二次实验对培养学生科学思维与创新性思维的重要意义。
期刊
传统柴油挖掘机存在能耗高、排放污染严重的问题,电力驱动挖掘机作为工程机械电能替代的主要解决方案,具备节能、环保等优势。目前,电力驱动挖掘机的驱动系统主要以感应电机加减速器的形式为主,存在体积大、可靠性差、调速范围小等缺点。相比于感应电机驱动系统,直接驱动式同步开关磁阻电机(Synchronous Reluctance Motor,Syn RM)具有功率密度高、调速范围广、可靠性高、成本低等优点,已
学位
高铬高碳钢属于铬系合金,具有高硬度、高耐蚀性以及良好耐磨性,在第三代核主泵关键零部件中有着重要应用。为满足核主泵的应用需求,对高铬高碳钢零件的几何精度和表面质量提出了较高的制造要求。目前,该类材料的零件主要采用磨削加工。然而,磨削加工该类材料时存在磨削力大、磨削温度高、砂轮磨粒磨损严重的问题,难以满足该类零件的制造需求。电解磨削加工通过电化学溶解作用减少磨粒实际切削深度,降低磨削力,可有效改善表面
学位
随着现代结构工程和制造技术的飞速发展,大跨度斜拉桥、超高层建筑等大型工程结构在向长寿、多功能的方向发展。大型结构在施工和使用过程中,在环境侵蚀、材料老化、复杂荷载、疲劳效应等耦合作用下,将不可避免地使结构积累不同程度的损伤和抗力衰减,因此,研究人员实时监测结构的工作状态,当产生结构损伤或抗力衰减时,可实时获得结构的具体情况,必要时可发出警报,实现对工程灾变的预测和预报,为前期防灾、减灾措施提供科学
学位
水库沉积导致的库容变化和内源污染现象日益严重,威胁着水库的正常运行。为了更详细地掌握水库内沉积物的分布特征,了解随径流入库的泥沙及吸附物在沉降前的输移过程,本文以碧流河水库作为研究对象,抓住特低水位的有利时机,对库区水上及水下沉积现状进行调查,获取高质量的地形和土质信息;采用多源地形数据融合的方法实现了碧流河水库水下地形更新,并在此基础上使用DHI公司开发的MIKE21软件对入库沉积物的输移过程及
学位
项目风险管理是指通过风险识别、风险分析和风险评价等方法,找出项目所处环境中独立存在的各类风险因素并加以分析,提出合理有效的应对措施、管理方法和技术手段,把风险可能造成的不良影响减少至最低的一个管理过程,是工程项目实施过程中的重要一环。近年来由于地方政府财政资金不足,部分地区出现了“授权建设运营(ABO)”这一不同于传统工程建设模式的新型政府与社会资本合作机制,使不少建设项目得以快速上马实施。Z市Y
学位
需求管理是项目中最重要的环节,不可避免会出现用户需求获取不完善、需求不断变更等情况。而在管理过程中出现的这些因素,皆会影响着后续项目实施进行的进度及控制管理。而“敏捷”是软件研发领域近几年的一个新发展,与CMMI有明显的不同,可以有效地应对频繁的需求变化,缩短迭代周期,提高用户的体验感。本论文以A公司供应商系统项目为研究对象,根据其敏捷项目需求管理的现状,结合A公司所处的行业环境、公司发展战略和规
学位
污水中多种污染物(如有机碳、无机碳、多种重金属)的共存,对水处理技术提出了更高的要求。微生物燃料电池(Microbial fuel cells,MFCs),特别是电活性催化的生物阴极MFCs具有去除不同类型污染物的作用。本研究以一株电化学活性菌Serratia marcescens YS3作为MFCs阴极的生物催化剂,探究其在单一有机碳(葡萄糖)、单一无机碳(HCO3-)和混合碳源条件下的Cr(V
学位
受国际形势因素限制,H核电公司无法采购到以252Cf为原材料的一次中子源组件用于5、6号机组初始堆芯装料。因此,5、6号机作为H核电公司的二期建设项目,在经历了长达几年的土建、安装、调试等阶段后,很可能面临无法启动投产的重大风险。在此背景下,H核电公司创造性的提出实施YCY技改项目来解决问题。YCY技改项目的顺利推进与成功实施是5、6号机按期投入商运的必要关键条件。作为核电行业领域首次实施的创新项
学位