基于稀疏交互的多智能体强化学习方法研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:zzyynn99
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现阶段,随着越来越多的生活场景从静态单一智能体向动态多智能体转变,多智能体强化学习方法正得到越来越多的关注和应用。然而,多智能体强化学习所面临的维数灾难问题以及智能体间巨大的通信成本问题日益严重。本文在引入已有的稀疏交互机制的基础上,建立了一个全新的较优稀疏交互框架,同时提出一种基于有效协调的多智能体强化学习方法,在多智能体栅格任务中取得了良好的仿真效果。本文提出的基于有效协调的稀疏交互多智能体强化学习方法主要包括两大部分。第一部分是有效结合单智能体学习过程(马尔科夫决策过程)和多智能体联合学习过程(马尔科夫博弈)建立一个全新的稀疏交互框架,并分离了联合状态和非联合状态的Q值更新规则。第二部分是针对智能体间的碰撞协调问题,采用纯策略均衡求解最优联合动作策略。基于纯策略纳什均衡和非限制均衡主导策略集,引入胆小鬼博弈模型提出一种求解胆小鬼博弈均衡的方法。另外,通过MATLAB仿真在多组栅格任务中验证了所设计算法的高效性,实现了能够利用较低的存储空间、较低的计算花费以及较少的学习时间帮助多智能体在路径规划问题中能够学习到(接近)最优动作策略的目标。
其他文献
对AT73C500+AT73C501芯片组的特点及原理做了简要介绍,并分析了引起计量误差的原因,主要对校正系数及其求取过程进行了分析,从结果看,此校正方法具有可行性,值得推广应用。
本文讨论了用非参数模型对儿童生长曲线进行拟合,给出了两种非参数曲线拟合方法:光滑样条和核估计。文中结合实例,构建了儿童体重的非参数百分位数曲线。
本文主要介绍山区水库自动化防雷具体实施的选型、设计、配合应用情况.
目的:下胫腓联合损伤主要继发于外旋型踝关节骨折,由于踝关节骨折合并下胫腓联合损伤,保守治疗的效果往往不佳,可能会引起踝关节的长期疼痛以及骨性关节炎。因此,手术治疗已
风能作为一种无污染、可再生的绿色能源,日益得到世界各国的关注和重视,集技术研发、设备制造、风机组装、风场投资为一体的产业链和产业集群正在崛起。围绕着风电场电力系统
刺梨盛产于贵州,其表面遍生密刺,质地坚硬,直接食用难度大且口感酸涩,因此,加工生产中多以其压榨果汁为原料,剩余的刺梨渣则被大量浪费。刺梨渣中膳食纤维含量丰富,但不溶性
《普通高中生物学课程标准(2017版)》的基本理念是以学科素养为核心,并将生命观念、科学思维、科学探究和社会责任共同确定为生物学科核心素养。新课程标准的达成需要落实到
政策议程设置是社会问题的“加工厂”,是社会问题输入政策系统并转化为政策结果输出的关键环节。在网络缔结的社会生态中,传统政府政策主导权趋于弱化,政策目标群体主体意识
改革开放以来,中国的社会主义市场经济体制逐步完善,经济与社会发展不断取得举世瞩目的成就,特别是我国的物质文明建设已经上升到了一个新的台阶。国有企业作为国家经济社会
教育是提高人民综合素质、促进人全面发展的重要途径,是民族振兴、社会进步的重要基石,是对中华民族伟大复兴具有决定性意义的事业。我国愈来愈重视九年义务教育,在基础教育