基于多智能体强化学习的足球机器人决策系统研究与设计

被引量 : 0次 | 上传用户:pipiskin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何使智能体模拟人类思维方法做出决策是人工智能的要义ˋ智能体能够通过强化学习方法ˋ对环境进行试错性的学习ˋ从而为求解马尔可夫决策过程描述的大规模不确定环境下的决策问题提供了方法RoboCup机器人足球世界杯是国际上一项为促进以多智能体系统及分布式人工智能为主的相关领域发展的国际比赛及学术活动其中ˋRobocup2D仿真比赛是以多球员智能体决策为重点的比赛项目本文以多智能体强化学习为基础ˋ以基于MAXQ分层强化学习及球员协作动作学习为主要方法ˋ以Robocup2D仿真比赛为实验平台ˋ对多智能体强化学习及决策问题进行研究ˋ并将其应用于球员个人及协作行为决策首先ˋ对多智能体决策问题及强化学习方法进行了归纳与总结接着ˋ针对强化学习系统状态复杂ˋ维度灾难问题ˋ引入CMAC神经网络进行泛化ˋ加快收敛速度ˋ提高学习准确度使用模拟退火策略ˋ使学习过程跳出局部最优解ˋ通过探索获取全局最优解同时引入MAXQ分层学习方案ˋ通过分层的结构将球员决策任务根据系统环境及任务复杂度进行划分ˋ将大维度的空间划分为一系列小维度状态空间ˋ降低状态空间维度ˋ使用启发式信息进行完成函数的估值ˋ实现分层学习的在线优化最后ˋ在仿真足球比赛平台中ˋ设计了球员的决策模型及相关功能模块ˋ引入动态势能场模型作为启发式ˋ使球员智能体能够根据所获取的球场及球员的位置ˋ做出适应的收益判断并更新估值函数通过前向树搜索对队友行为进行规划实现球员间的协作ˋ并利用强化学习得到的估值函数对其行为评估ˋ使球员选择最优策略ˋ完成行为决策ˋ提高球员之间的协作能力本文将提出的方法应用到了仿真平台球队ˋ以截球任务及分组对比的形式对算法进行分析以比赛的形式ˋ与其他队伍进行比较ˋ并对实验结果进行分析ˋ验证了本文提出方法的正确性及有效性
其他文献
在当今我国社会快速转型、深化体制改革的社会背景下,安全问题日益成为城市人不得不直接面对的生存境遇。被喻为“城市细胞”的群众性自治组织,社区作为城市安全的基础,必须建立
目的探讨建立兔血管再狭窄的简单模型方法.方法总计67只新西兰兔接受了经股动脉途径行球囊损伤腹主动脉术,术后4周处死兔,观察血管再狭窄模型制作情况.结果所有兔均完成了手术,59
<正> 我科自1979年开展牙髓塑化液中加腆仿的方法,已治疗250多例,取得了满意疗效。现将资料齐全的207例含216颗牙齿的资料分析如下:临床资料207例牙髓和根尖周炎的病例中含21
顾维钧是民国时期外交界的领袖人物和享誉世界的职业外交家 ,中西两套截然不同的价值观、行为规范并存于一体 ,使他的思想、信仰、个性显得格外扑朔迷离 ,难以把握。本文将从
<正>民间的许多饮食谚语,乃是世代相传的饮食养生经验结晶,大都有其科学性与实践性。笔者辑录于下,作为引玉之砖,使这一宝贵遗产得到应有的重视,并被科学地继承和发扬。四季
随着航空发动机和地面燃气轮机热端部件的隔热效果和使用温度要求的提高,传统的YSZ涂层越来越难以满足需求。因此,新型热障涂层材料成为研究的热点领域。焦绿石结构的Sm2Zr2O7(S
激光对抗技术在现代战争中发挥着越来越重要的作用.介绍了国外激光对抗技术的发展历程以及装备的研制、改进情况,指出了在现代战争中发展激光对抗技术的优势和重要性.重点探
<正> 盐醋防毒消炎好,韭菜补肾暖膝腰.萝卜化痰消胀气,芹菜能降血压高.胡椒驱寒又除湿,葱辣姜汤治感冒.大蒜抑制肠炎发,绿豆解暑最为妙.香蕉通便解胃火,健胃补脾食红枣.
随着企业的发展,青年已经成为企业的中坚力量,团组织也成为了企业发展不可或缺的一部分。
近年来,“三农”问题,已经引起了政府、学者和社会的广泛关注,特别是农村的环保话题已经成为近来的热点。我国长期起来,说起环境的恶化,人们首先想起的总是城市,我国污染防治的重心