基于分层强化学习的RoboCup 3D球队的设计与实现

来源 :江苏大学 | 被引量 : 3次 | 上传用户:qqqqq770627
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,随着计算机网络技术的迅速发展,计算机快速转向开放的、网络平台的、协同工作方式。基于Agent理论和技术尤其是MAS(Multi-Agent Systems)的理论和技术给我们带来了设计和实现分布与开放环境中运行的软件系统一个全新模式。 机器人世界杯足球赛(The Robot World Cup,简称RoboCup),是典型的MAS,是MAS标准问题,可以用来评价各种不同MAS问题求解的理论、算法和体系结构。 RoboCup仿真球队分为2D和3D。2D仿真的环境是二维的,且其物理模型不是真实的,在仿真中容易预测,另外,其仿真不容易扩充,但3D仿真采用三维环境和真实的物理模型,使其运动难以预测,并且容易配置来进行其它仿真,使其研究成果更容易转化到实际应用中,所以,3D的研究成为MAS的研究热点。要建立一支RoboCup 3D的仿真球队,主要有两方面的工作:确定良好的程序框架及针对所要解决的问题选择合适的学习算法。本文的主要工作: (1)提出分层学习的框架。将系统分为三层:交流层、技术层和控制层。下层为上层提供服务,且对上层透明,因而易于扩展,降低了在连续状态和动作空间下学习的难度。交流层提供与服务器的信息交流,包括球员从服务器端接收信息和球员向服务器发送动作指令;技术层提供球员的个人技能和球队的合作技能。首先在原始的状态空间学习球员的基本个人技术,然后在已有的个人技术上学习高级的个人技能,如带球,在已有的个人技术基础上再学习团队的合作技术,如传球;控制层提供球员的推理功能,球员先根据当前的策略状态从队行为集中选择一些队行为,然后将这些队行为仿真推进几步,将仿真结果进行评估,然后根据评估结果再选择一个队行为,球员根据队行为选择自己的动作,然后将此动作送服务器执行。 (2)HEDGER能在RoboCup 3D仿真所提供的连续的状态和动作空间进行学习,但是在3D仿真如此大的状态和动作空间下进行学习,其计算量太大,难以在线实时学习。因此,我们对HEDGER学习算法进行了改进,引入脊回归技术,通过调整脊参数的大小,增强了LWR在预测时的容错性,同时,引入了kd-tree算法,减小了算法在查找时的计算量。改进的HEDGER算法提高了其在3D仿
其他文献
2000年网络经济风起云涌,大量资金投资于网络经济,2001年网络神话破灭后,网络经济跌入低谷。银行业在网络经济潮流中并没有大势渲染,而是苦苦思索,努力发展电子银行业务来应对经济
“教师,必须以如履薄冰的心·态面对自己的工作。”这句话以优雅的姿态出现在某刊物上,原来是某校提炼的教师人生格言。“如履薄冰”这个词和这个词带给人的第一感觉,作为教
为掌握石羊河国家湿地公园内植物本底资源状况,更好地保护区内湿地资源,促进湿地公园健康发展,采取野外调查和室内查阅相关文献鉴定的方法对石羊河国家湿地公园内植物资源进
我院自1987年10月~1995年12月共行同种异体肾移植86例,其中发生肾移植术后红细胞增多症(PTE)8例,发生率为9.3%,现报道如下。1 临床资料1.1 一般资料 肾移植术后患者86例,其中男6
随着社会交通和建筑行业的发展,高处坠落等外伤事故逐渐增多,相应跟骨骨折的发生明显增多。做为一种恢复较慢,愈后较差,可带来较高病残的疾病,越来越被人们所重视,随着对其病理解剖
随着社会的转型,家庭的结构和功能已经发生了深刻的变化。人们的道德水平和价值标准也发生了巨大的变化。婚外恋、家庭暴力、离婚问题日益严重。家庭问题已经成为转型期不容忽
思想政治教育是党和政府进行国民政治素质教育和道德教育的有效途径,也是对人们进行意识形态教育的重要方法。韩国和我国具有相似的文化背景和历史传统,通过分析中韩大学生思
到目前为止,学术界尚未出现完整的和系统的区位理论来解释国际直接投资的分布规律。而且,主流派理论都是以发达国家境外直接投资为研究对象,大部分讨论的都是硬环境和经济因
9月9日至10日,全省教育工作会议在济南召开。会议认真学习贯彻全国教育工作会议精神和国家中长期教育改革和发展规划纲要,分析教育工作面临的新形势,研究部署我省教育改革发展任
一堂让人欣赏的课应该刻印着朝霞与阳光,让激情的种子在心田萌芽,又像雨露和溪水,滋润着幼苗茁壮成长。说实话,对外研版教材我是第一年使用,自己几乎是在黑暗中摸索,跌跌撞撞