论文部分内容阅读
如何使智能体模拟人类思维方法做出决策是人工智能的要义ˋ智能体能够通过强化学习方法ˋ对环境进行试错性的学习ˋ从而为求解马尔可夫决策过程描述的大规模不确定环境下的决策问题提供了方法RoboCup机器人足球世界杯是国际上一项为促进以多智能体系统及分布式人工智能为主的相关领域发展的国际比赛及学术活动其中ˋRobocup2D仿真比赛是以多球员智能体决策为重点的比赛项目本文以多智能体强化学习为基础ˋ以基于MAXQ分层强化学习及球员协作动作学习为主要方法ˋ以Robocup2D仿真比赛为实验平台ˋ对多智能体强化学习及决策问题进行研究ˋ并将其应用于球员个人及协作行为决策首先ˋ对多智能体决策问题及强化学习方法进行了归纳与总结接着ˋ针对强化学习系统状态复杂ˋ维度灾难问题ˋ引入CMAC神经网络进行泛化ˋ加快收敛速度ˋ提高学习准确度使用模拟退火策略ˋ使学习过程跳出局部最优解ˋ通过探索获取全局最优解同时引入MAXQ分层学习方案ˋ通过分层的结构将球员决策任务根据系统环境及任务复杂度进行划分ˋ将大维度的空间划分为一系列小维度状态空间ˋ降低状态空间维度ˋ使用启发式信息进行完成函数的估值ˋ实现分层学习的在线优化最后ˋ在仿真足球比赛平台中ˋ设计了球员的决策模型及相关功能模块ˋ引入动态势能场模型作为启发式ˋ使球员智能体能够根据所获取的球场及球员的位置ˋ做出适应的收益判断并更新估值函数通过前向树搜索对队友行为进行规划实现球员间的协作ˋ并利用强化学习得到的估值函数对其行为评估ˋ使球员选择最优策略ˋ完成行为决策ˋ提高球员之间的协作能力本文将提出的方法应用到了仿真平台球队ˋ以截球任务及分组对比的形式对算法进行分析以比赛的形式ˋ与其他队伍进行比较ˋ并对实验结果进行分析ˋ验证了本文提出方法的正确性及有效性