论文部分内容阅读
自组织行为广泛存在于自然界中。为了通过学习的方式模拟鱼群自组织行为,构建了鱼群模拟环境模型、智能体模型和奖励机制,并提出了一种基于赫布迹和行动者-评价者框架的多智能体强化学习方法。该方法利用赫布迹加强游动策略的学习记忆能力,基于同构思想实现了多智能体的分布式学习。仿真结果表明,该方法能够适用于领航跟随、自主漫游、群体导航等场景中鱼群自组织行为学习,并且基于学习方法模拟的鱼群展现的行为特性与基于博德规则计算模拟的鱼群行为类似。