论文部分内容阅读
多智能体系统(multi-gent system,MAS)一直是人工智能研究的热点领域。为了解决多智能体在弱通信环境中无法做出有效决策以及在巨大灾难环境中多智能体遇到的“维数灾难”这两个问题,从而提高智能体学习和决策能力,本文提出从以下三个方面对智能体决策进行优化:(1)基于动态模糊决策树的弱通信状态下的智能体决策优化;(2)基于支持向量机的单智能体Q学习优化;(3)基于经验交互与信度分配的多智能体Q学习优化。本文的工作和创新点为以下几点:(1)基于动态模糊决策树的弱通信状态下的智能体决策优化:该方法将智能体决策所需的繁多的条件简化成几个重要条件,然后离散化因通信质量差而变得模糊的信息,补齐缺失信息,构建动态模糊决策树,并对其中过拟合的枝节进行剪枝,获得动态模糊决策树。以解决在弱通信条件下,因通信信息模糊、缺失导致智能体无法正确决策的问题。(2)基于支持向量机的单智能体Q学习优化:该方法构建了SVM支持向量机,来拟合_tQ值与当前动作a_t,当前状态s_t的函数曲线,从而通过输入当前动作a_t,,当前状态s_t构成的动作—状态对,可以直接得出当前Q值_tQ,避免了因状态空间过于复杂,无法构建Q值查询表的问题。此外采用时间窗机制,随着时间进行,在线滚动SVM支持向量机,保证了SVM可以实现动态在线学习,并通过KKT条件检测获取的Q值保证SVM支持向量机总是能向更准确的方向滚动。(3)基于经验交互与信度分配的多智能体Q学习优化:该方法提出了由多智能体共同更新一张共有Q值表的方式来实现多智能体的Q学习,并且根据人类交互经验,提出前期智能体多从自身的Q值表获取经验,随着时间推移,越来越多地从共有Q值表获取经验。并且构造了根据具体环境构造了结构信度函数和时间信度函数,将整体回报信号根据不同的贡献以信度分配的方式分配给智能体。构建同构智能体的共有以上三种方法均在RoboCup救援仿真系统平台(RoboCup Rescue Simulation System,RCRSS)上做了应用,取得了不错的成绩。