基于MADDPG算法的多智能体协同控制研究

来源 :武汉纺织大学 | 被引量 : 3次 | 上传用户:yiyucanqing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的工业机器人是建立在精确的数学模型的基础上,其控制方法通常是在固定的环境中设定特定任务。然而这样的传统控制系统不具备适应性以及泛化性,当机器人处于的环境发生细微的改变时,机器人则无法准确的完成任务,因此智能控制算法逐渐成为机器控制的研究热点。随着强化学习以及深度学习的不断发展,将深度强化学习算法应用到机器人控制受到了广大的研究人员的关注。本文首先介绍了传统机械控制的控制原理和深度强化学习的发展,阐述了本课题的研究背景与研究目的。其次,在基于物理引擎的MuJoCo环境中采用了确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG),重点研究DDPG算法在单个智能体环境的鲁棒性与通用性。然而,随着智能体数量的增加而引起的环境不稳定,导致一般的深度强化学习在联合行动空间中存在一定的困难。最后为了解决这个问题,本次设计一个四个机械手臂通过协作控制到达目标位置的任务,并使用了多智能体确定性策略梯度算法(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)在MuJoCo中进行训练。实验结果表明,每个机械手臂均可以通过自主学习获取信息和积累经验来完成任务,同时模型的收敛效果良好,说明MADDPG算法在复杂环境下具有良好的性能,并成功的学习了多智能体协作策略。
其他文献
自互联网在我国不断发展以来,互联网行业就逐渐在我国经济社会发展中起到不可忽视的作用,而互联网企业作为互联网技术运用的主体,也在自身成长的过程中肩负着促进整个社会前
美国食品安全教育实行全民教育,不仅有健全的法律依据,而且有多元体系的配套制度给予保障,其主管部门权责明确,根据受教育对象的不同实行分层教育,实施中职业教育特色浓厚,具
随着“一带一路”的提出以及经济全球化,越来越多的投资者将目光从国内转移到了境外。“一带一路”建设的全面、高质量发展离不开基础设施建设这一重要基础,然而“一带一路”
在互联网+大背景下,运动类APP的开发迅猛,并不断发展创新。大学生是新时期社会的精英人群,是手机网民中具有代表性的群体之一,具有高学历和高素质的特征,对于新鲜事物和美好
边缘计算能够让万物互联产生的信息得到更快的处理,使得很多物联网设备例如电动汽车充电桩的实时分配成为了可能,如何将这些物联网设备合理的分配给用户使用,获取最大的收益,可以抽象为资源分配问题,是云计算新领域中的一个研究热点。资源分配问题在云计算领域已经有很多研究,其中运用较广的一种方式是基于竞价机制的资源分配。本文借助云计算中资源分配模型,改进后运用于边缘计算资源分配问题,以资源公平合理分配及收益最大
在吉中地区敦密断裂带上,分布大小不等的碱性杂岩体已发现的大约20余个。本文对蛟河南部少砬哈子碱性岩体地质特征及蚀变矿化进行了详细的野外地质调查,发现该岩体具有很好的
[目的]利用微核试验研究CpG ODN的遗传毒性.[方法] 分别以10 μg/只、100 μg/只、300 μg/只3个不同剂量CpG ODN0.1 ml腹腔注射染毒健康昆明小鼠,24 h后以同样剂量再次注射
当前资管行业乱象丛生,各种通道和多层嵌套业务盛行,导致金融行业风险激增,既损害了投资者权益,亦有损于金融市场秩序稳定。对资管业务实施穿透式监管对促进监管的有效性、防范金融系统性风险具有必要性。但应认识到,在我国既有法律理论体系、金融监管体制及金融基础设施之下,针对资管业务实施有效的穿透式监管尚存在诸多障碍。本文重点在于逐一厘清资管业务穿透式监管在法律理论和现实条件上存在的问题,进而探索相应的法律制
研究非线性等式约束全局优化问题,其中目标函数和约束函数为C1类函数.针对非线性等式约束函数,定义了广义Krawczyk算子,建立了约束函数的区间迭代和新的无解区域删除原则,在
在坚定不移的贯彻创新发展理念以及建设创新型国家战略的引导下,各个企业的发展模式都在向依靠技术创新驱动的发展模式转变。依靠创新驱动,企业就需要搞研发,进行技术创新,掌握核心竞争力,势必要加大创新投入。实际业务中,企业进行技术创新周期较长,资金数额大,甚至巨额投入没有成果;即使研发成功,资金的回流也是一个漫长的过程。由于研发创新高投入、高风险的特征,大多数企业进行创新时面临着资金缺乏的困难,因而阻碍企