基于异步合作更新的LSTM-MADDPG多智能体协同决策算法

来源 :吉林大学学报(工学版 | 被引量 : 0次 | 上传用户:wangdalu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对完全合作型任务中,多智能体深度确定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)算法存在信度分配以及训练稳定性差问题,提出了一种基于异步合作更新的LSTM-MADDPG多智能体协同决策算法。基于差异奖励与值分解思想,利用长短时记忆(Long Short-Term Memory, LSTM)网络提取轨迹序列间特征,优化全局奖励划分方法,实现各智能体的动作奖励分配;结合算法联合训练需求,构建高质量训练样本集,设计异步合作更新方法,实现LSTM-MADDPG网络的联合稳定训练。仿真结果表明,在协作捕获场景中,所提算法相较于QMIX的训练收敛速度提升了20.51%;所提异步合作更新方法相较于同步更新,归一化奖励值均方误差减小了57.59%,提高了算法收敛的稳定性。
其他文献
目的:本研究旨在评价“调神益智”针刺法对卒中后认知障碍非痴呆(Post-stroke Cognitive Impairment no dementia,PSCIND)的临床疗效,并通过检测血清淀粉样蛋白β1-42(Amyloid Beta Peptide,Aβ1-42)水平探索针刺改善PSCIND的作用机制。方法:本试验遵循随机对照原则,以2017年《卒中后认知障碍管理专家共识》中定义的PSCIN
民族声乐唱法与戏曲唱腔是具有共通性的艺术形式,从戏曲唱腔之中学习、借鉴其特色唱法与音乐表现形式等,对民族声乐唱法的发展具有重要意义与作用。豫剧唱段《谁说女子不如男》中,戏曲唱腔的声调、咬字归韵、行腔、舞台表现都独具特色,对民族声乐唱法具有借鉴意义,有助于其对演唱方法、表现方式、民族化特色等方面的进一步加强与完善。
喷油螺杆压缩机因其结构简单、可靠性高等优良特点被广泛应用于矿山、化工、冶金等诸多领域。随着国家越来越重视绿色发展,各个压缩机厂家为了响应国家的号召,同时提升自身产品的竞争力而推出了比单级螺杆压缩机更加节能的双级螺杆压缩机。本文将通过试验和计算来分析双级螺杆压缩机的节能原理以及节能效果。
随着城镇化程度的提高,地下污水处理厂不断增加,其通风系统及气流组织的合理设置至关重要。以陈江街道办二号污水处理厂下层空间为例,通过CFD数值计算分析对按照相关设计规范完成的通风系统及气流组织设计进行了验证分析,结果表明:该污水厂通风系统较为合理,但存在个别气流死角,该分析可为地下污水处理厂的通风系统及气流组织的设计及运行提出借鉴。
为了对原料乳中苯甲酸和山梨酸钾的质量分数有一个大致的了解,对不同来源的生乳、全脂乳粉以及市售婴幼儿乳粉中苯甲酸和山梨酸钾进行抽样调查。结果表明,所有被检测样品中均未检测出山梨酸钾。而20份生乳样品中苯甲酸质量分数的平均值为5.02 mg/kg;30份全脂乳粉样品中苯甲酸质量分数的平均值为33.76 mg/kg;30份婴幼儿乳粉样品中苯甲酸质量分数的平均值为23.3 mg/kg,此检测结果可为食品卫
为了提高生鲜乳的质量安全水平,加强对生鲜乳的危害因子之一——苯甲酸的准确检测,试验采用超声波控温、离心机离心提取苯甲酸的方法,用高效液相色谱法测定生鲜乳中苯甲酸的含量,计算生鲜乳中苯甲酸的检出率,通过检出率和检测结果判定生鲜乳中苯甲酸的来源,从而判定生鲜乳中的苯甲酸是否对人体有害(参照食品中苯甲酸的限量)。结果表明:散奶中苯甲酸的含量不会对人体造成危害。
<正>孔子曰:"益者三友,损者三友。友直,友谅,友多闻,益矣。友便(pián)辟,友善柔,友便(pián)佞(nìng),损矣。"——《论语·季氏》我们每时每刻都生活在种种社会关系中——在家庭中,有父母和亲戚;在学校里,有老师和同学;在球场上,有教练、队友和对手;在列车上,有车长、司机、乘务员和旅客……这种种社会关系,有些我们无从选择,比如亲戚关系,
期刊
随着我国社会发展趋势越来越好,对人才教育的重视程度也越来越高,教育系统也更加完善。尤其在新课改背景下,教育研究的方向也更具针对性,教学评一致性是目前众多教育学者重点研究的课题之一。教学评一体化理念的提出,重点强调了依据数据实施评价,并且要贯穿整个教与学的过程中,充分发挥评价促进学生学的作用力,全面提升学生的学习能力。本文基于教学评一致性,对小学语文教学的有效策略进行了研究。
以常泰长江大桥中塔承台大体积混凝土结构为典型案例,通过比较低热水泥胶凝体系和掺加大掺量矿物掺合料的普通水泥基胶凝材料两种典型C40混凝土配合比在大体积混凝土实际运用,对比分析两类配合比混凝土温升情况及实体构件中混凝土温度发展规律,为大体积混凝土温度裂缝控制提供参考。[摘要]
针对质子交换膜燃料电池(PEMFC)供氢系统供气充分且氢压响应迅速的要求,提出了供氢系统零部件匹配设计方法。首先,采用机理和半经验建模相结合的方法建立了燃料电池氢气供应系统集总参数模型,并结合该模型提出了氢气供应系统的匹配设计方法。为验证匹配设计方法的合理性,针对一80 kW电堆进行了仿真分析。结果表明:在前馈+PI控制策略作用下,从怠速阶跃至额定工况的阳极压力上升时间为0.5 s、超调量为3 k