基于强化学习的 RoboCup Keepaway 高层抢球策略

来源 :计算机应用与软件 | 被引量 : 2次 | 上传用户:chenxiang1006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在Robo Cup Keepaway任务训练中,传统手工抢球策略的主观性强,对训练情形变化的适应性差,导致抢球球员任务完成时间长、抢断成功率低。针对这一问题,将强化学习应用于Keepaway中抢球球员的高层动作决策。通过对抢球任务特点的分析,合理设计了抢球球员强化学习模型的状态空间、动作空间及回报值,并给出了抢球球员的强化学习算法。实验结果表明经强化学习后,抢球球员能够根据比赛情形做出更客观的决策,决策效果显著优于手工策略。对于4v3和5v4规模的典型Keepaway任务,抢球球员采用学习后的策略决
其他文献
目的探讨小儿鼻血管瘤的理想治疗方法.方法1988年1月至20001年4月,共治疗小儿鼻血管瘤110例.其中平阳霉素瘤内注射76例(Ⅰ组);甾体激素瘤内注射11例(Ⅱ组);无水乙醇瘤内注射7
目的观察中医养阴清肺法治疗肺结核患者的临床疗效。方法选取医院2014年1月-2015年1月收治的肺结核病患者100例,随机分为治疗组和对照组各50例。对照组采用西药联合化疗进行
目的利用RNA干扰(RNAi)技术通过热休克蛋白47(HSP47)siRNA重组质粒和脂质体的混合液对裸鼠瘢痕疙瘩模型的体内干预,分析HSP47基因在瘢痕疙瘩生成中的意义。方法构建裸鼠瘢痕疙瘩动
目的探讨早期肠内营养治疗重症急性胰腺炎(severe acute pancreatitis,SAP)的临床应用及护理。方法对25例确诊为SAP的患者早期置入复尔凯螺旋型鼻肠管,采用一次性输注及输液泵
绝经后骨质疏松症为进行性、退行性病变,随着人口老龄化,该病发病率不断增长和病人数不断增加所带来的临床医疗问题,日益受到社会广泛关注,其预防治疗成为当前研究的热点之一
高校的基础工作之一就是实现对档案的优化管理,高校的档案记录着校园里每一项工作及活动的流程及意义,可以作为衡量学校教育质量和教育管理水平的标准之一。本文主要分析了目
目的:探讨超声引导股神经阻滞复合丙泊酚靶控输注在髌骨骨折手术患者中的临床应用。方法:择期行单侧髌骨骨折切开复位内固定术患者60例,年龄45~80岁,体质量43~82 kg,ASA I~II
趋近化理论为批评话语分析提供了新的路径和方法。文章首先梳理了趋近化理论和相关研究成果,然后以美国疾病控制与预防中心(CDC)在抗击COVID-19疫情中的电讯简报会文本为语料
针对视频质量诊断系统中的PTZ控制检测,提出一种基于灰度投影的云台全方位移动检测方法。首先获取两帧待检测的视频帧,计算其行列的灰度投影;接着利用投影后的结果计算两帧图像的行、列位移量;最后根据位移量判断云台是否按用户指令正确运动。实验结果验证了该方法的快速、有效性。
本文主要结合川沙水泥厂利用篦冷机废气烘干矿渣的低温回转烘干机,概略介绍了它的特点、开发、设计和使用效果等方面的情况,并就其今后的发展提出了几点意见。