基于Q学习的RoboCup多智能体决策优化

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:along_1979
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多智能体系统(multi-gent system,MAS)一直是人工智能研究的热点领域。为了解决多智能体在弱通信环境中无法做出有效决策以及在巨大灾难环境中多智能体遇到的“维数灾难”这两个问题,从而提高智能体学习和决策能力,本文提出从以下三个方面对智能体决策进行优化:(1)基于动态模糊决策树的弱通信状态下的智能体决策优化;(2)基于支持向量机的单智能体Q学习优化;(3)基于经验交互与信度分配的多智能体Q学习优化。本文的工作和创新点为以下几点:(1)基于动态模糊决策树的弱通信状态下的智能体决策优化:该方法将智能体决策所需的繁多的条件简化成几个重要条件,然后离散化因通信质量差而变得模糊的信息,补齐缺失信息,构建动态模糊决策树,并对其中过拟合的枝节进行剪枝,获得动态模糊决策树。以解决在弱通信条件下,因通信信息模糊、缺失导致智能体无法正确决策的问题。(2)基于支持向量机的单智能体Q学习优化:该方法构建了SVM支持向量机,来拟合_tQ值与当前动作a_t,当前状态s_t的函数曲线,从而通过输入当前动作a_t,,当前状态s_t构成的动作—状态对,可以直接得出当前Q值_tQ,避免了因状态空间过于复杂,无法构建Q值查询表的问题。此外采用时间窗机制,随着时间进行,在线滚动SVM支持向量机,保证了SVM可以实现动态在线学习,并通过KKT条件检测获取的Q值保证SVM支持向量机总是能向更准确的方向滚动。(3)基于经验交互与信度分配的多智能体Q学习优化:该方法提出了由多智能体共同更新一张共有Q值表的方式来实现多智能体的Q学习,并且根据人类交互经验,提出前期智能体多从自身的Q值表获取经验,随着时间推移,越来越多地从共有Q值表获取经验。并且构造了根据具体环境构造了结构信度函数和时间信度函数,将整体回报信号根据不同的贡献以信度分配的方式分配给智能体。构建同构智能体的共有以上三种方法均在RoboCup救援仿真系统平台(RoboCup Rescue Simulation System,RCRSS)上做了应用,取得了不错的成绩。
其他文献
通过分析温度对涡流检测信号影响的方式和规律,提出抑制环境温度影响的措施。对缺陷和涡流信号响应特征之间的关系进行了分析和研究,实践表明,涡流检测速度快、灵敏度高、测
结合富源县开展农村剩余劳动力转移培训的情况,剖析目前富源县开展劳动力转移培训工作存在的困难和问题,阐述促进农村剩余劳动力转移培训工作的观点,提出实施劳动力转移培训
针对标准粒子群算法寻优高维极值函数能力低,基本人工鱼群算法后期收敛速度慢,精度有待于提高等问题,提出了粒子群优化人工鱼群算法。上述算法综合利用了人工鱼群算法的良好
软交换网络将会成为目前通信网络的主要的发展方向,是各大运营商大力投资的目标,因此软交换网络得到了飞速的发展。因为软交换网络大多数都是多专业、多协议以及多设备的开放
同伴教育是发达国家较为流行的一种性教育方式,它利用青少年的趋众倾向、同伴压力的积极因素对青少年进行教育,内容多是一些敏感问题,如性、吸毒、吸烟、意外伤害等。
课程教学设计是提高课程教学效果的重要手段之一,只有职能部门加强对课程教学设计的宏观指导,才能保证其沿着正确的方向发展,达到预期效果。结合实践,从提高认识、培训指导、设计
双心医学是心血管病学和精神病学交叉形成的学科,它强调尊重病人的主观感受,在治疗病人躯体存在的心血管疾病的同时,兼顾病人的精神心理问题。目前,我国双心疾病的发生率高,
目的探讨高脂血症(HL)与急性胰腺炎(AP)的关系。方法回顾广汉市人民医院2004年1月-2008年12月收治的526例急性胰腺炎患者,分析脂肪肝、高脂血症与急性胰腺炎发病的关系。结果
<正> 计划生育是我国目前一项重要的政策,有些同志主张立法。我认为,在计划生育方面立法是不适宜的。计划生育的目的是为了控制人口盲目增长。目前很高的出生率产生于我们五