基于GAED-MADDPG多智能体强化学习的协作策略研究

来源 :计算机应用研究 | 被引量 : 5次 | 上传用户:EMPS
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前多智能体强化学习算法多采用集中学习,分散行动的框架。该框架存在算法收敛时间过长和可能无法收敛的问题。为了加快多智能体的集体学习时间,提出多智能体分组学习策略。通过使用循环神经网络预测出多智能体的分组矩阵,通过在分组内部共享智能体之间经验的机制,提高了多智能体的团队学习效率;同时,为了弥补分组带来的智能体无法共享信息的问题,提出了信息微量的概念在所有智能体之间传递部分全局信息;为了加强分组内部优秀经验的留存,提出了推迟组内优秀智能体死亡时间的生灭过程。最后,在迷宫实验中,训练时间比MADDPG减少
其他文献
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
目的:观察地塞米松磷酸钠注射液封闭联合口服口炎清颗粒治疗糜烂型扁平苔藓的临床疗效。方法:将糜烂型扁平苔藓30例随机分成2组,治疗组16例采用地塞米松磷酸钠注射液2 mg与2%
介绍了风云二号(FY-2)气象卫星数传与云图广播转发器分系统的功能、组成,以及频率配置、传输信号特性和增益与功率等主要技术指标。给出了C星分系统转发器的技术改进。阐明了采
红辣酱配料红辣椒10公斤,盐1.5公斤,花椒30克,大料50克.加工先将辣椒洗涤,晾干,再将调料粉碎,与辣椒末一并入缸密封,经7天后即成.
期刊
“天下”是一个开放性很强的概念,自春秋战国诸子“思以其道易天下”,“天下”便更是士人的情怀。北宋文士以释《易》论“天下”,通过动态的先天下与后天下、人文的忧天下与乐天
在分析宁波市区软弱地基特征及基坑支护结构现状的基础上,论述了采用土钉墙基坑支护结构支护深度为6.0~7.0m软弱基坑的可行性.在镇海炼化工程的超软弱地基中用土钉墙来支护深
儿童用口呼吸,多数原因是鼻阻塞引起的。正常人吸入空气,经过鼻腔、气管和支气管,然后到达肺部。但是儿童鼻粘膜柔嫩,血管组织丰富,感冒或患过敏性鼻炎时鼻粘膜充血肿胀,中鼻甲肥大
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技