一种改进的平均奖赏强化学习方法在RoboCup训练中的应用

来源 :苏州大学学报(自然科学版) | 被引量 : 0次 | 上传用户:wangkanli
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习在人工智能领域中是一种重要的解决学习控制问题的方法.在强化学习中,平均奖赏类型的强化学习方法适用于解决具有循环特性或者不具有终结状态的问题,然而平均奖赏强化学习存在收敛速度慢、对参数和环境敏感等问题.针对平均奖赏强化学习收敛速度缓慢这一问题,提出了一种改进的平均奖赏强化学习方法.同时,为了处理大状态空间、提高泛化能力,算法采用神经网络作为近似函数.算法在RoboCup中实验的训练表明该算法具有较快的收敛速度和较强的泛化能力.
其他文献
以学生为主体的评改方式,真正将学生视为能动的主体,充分尊重学生的人格和个性,学生以主人的身份参与学习活动,迎合了中学生注重自身存在,渴望实现自身价值的个性心理.这一新
自1997年亚洲金融危机爆发以来,山东省经济已明显受到冲击,并将对山东省今明两年的经济增长产生诸多不利的影响。因此,认真分析亚洲金融危机对山东省经济的影响,制订切实可行的应急对
论金融衍生工具的法律监管王令芬一、概述金融衍生工具的引进和发展是九十年代以来国际金融市场的焦点之一。由于中国改革开放的步伐在九十年代以来逐步加快,所以金融衍生工具
高校教学方法的改革是教学改革的重点之一,本文分析了当前大学教学方法改革的现状,从思想观念,适应能力精力投入和政策导向等四个方面探讨了阻碍教学方法改革的因素.
<金瓶梅>以北方话为其基础方言,其中的某些俚俗词语仍留存于济宁方言中,有的虽有嬗变,但考察旧时风物,亦能见其端倪.这对书中俚俗难词的正确理解有一定的参考价值.
本文以2008-2014年间深市上市公司为样本,研究了媒体监督与制度环境对公司信息透明度的影响,研究发现:媒体监督与良好的制度环境均有利于公司提高信息透明度,并且在不同制度环
农村信用社管理体制改革的核心内容是把农村信用社改成由农民入股,由社员民主管理,主要为社员服务的合作性金融组织。如何贯彻十五届三中全会精神.充分发挥农村信用社的信贷支农
建立和完善人民银行对商业银行的综合考核评价体系,既是深化金融体制改革的需要,又是人民银行有效履行职能、强化金融监管的一种新的科学管理方式,同时也是促进商业银行建立和完