内在激励强化学习及其在Robocup仿真中的应用

来源 :计算机仿真 | 被引量 : 8次 | 上传用户:zhdj600
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对以往的强化学习对单步动作学习的效率较低,从心理学角度引入内在激励的概念,并将其作为强化学习的激励信号,与外部激励信号一同作用于强化学习的整个过程。改变了传统意义上的强化学习的框架模式。在学习的过程中,不但要学习单步的动作值,同时还学连续动作的技巧值,通过构建各种“技巧”,来提高解决新问题的能力,使学习的效率得到很大的提高。最后将内在激励的强化学习运用于Robocup仿真组足球比赛当中。
其他文献
该文采用装备战损模拟平台作为试验手段,从统计学研究了弹药高低角、弹药水平角、炸点距离、靶板尺寸等因素对于弹药杀伤效果的影响程度。利用装备战损模拟平台收集了大量的装备战损仿真数据,据此建立了各因素对于杀伤效果的一元回归方程;为了比较各因素对于弹药杀伤效果影响程度的大小,采用正交试验的方法计算了各因素的影响程度数值,并根据一些异常数据证实了弹药高低角和水平角之间存在交互作用,并对各因素的主次关系进行了
目的观察PFNA-Ⅱ髓内钉与微创INTERTAN髓内钉对老年股骨粗隆间骨折的临床疗效。方法66例老年股骨粗隆间骨折患者,根据治疗方法不同分为微创组和基础组,每组33例。微创组患者
目的分析富马酸丙酚替诺福韦(TAF)治疗慢性乙型肝炎(CHB)合并脂肪肝患者与治疗单纯CHB患者病毒应答时间的差异性。方法73例使用TAF治疗的CHB患者,均获得病毒应答。其中33例CH
轩轩的妈妈给他买了一个小猪储蓄罐,轩轩把平日里节省下来的零花钱硬币都放在小猪储蓄罐里。生日那天,轩轩打算用储蓄罐里的钱给自己买一份生日礼物,于是他和妈妈打算把储蓄
该文对空间飞行器姿态系统设计了一种变结构控制器。首先,应用误差四元数法描述空间飞行器姿态运动。同时,在考虑结构摄动和外界扰动的界未知情况下,其基本方法是采用模糊规则优化滑模变结构控制的设计,并且能够在线对结构摄动和外界扰动的界进行估计,使得系统轨迹既能快速趋近滑动面又能降低抖振,从而提高了变结构控制系统的品质。仿真结果表明,该系统对模型不确定性和外来干扰具有较强的鲁棒性,同时避免了变结构系统固有的
介绍了铁路车站计算机联锁系统的概念及其硬件构成;阐述了系统安全性、可靠性的概念。从系统的硬件设计、软件设计和数据传输及处理等几方面分析了系统的安全性、可靠性设计
混凝土具有成本低廉、原料简单、施工便利,结构稳定性强等优点,在工程建设领域得到了广泛应用,但混凝土的质量问题也成为社会关注的焦点。文章结合混凝土碳化的原理,通过相应
对于雷达制导的防空导弹武器系统,在导弹、目标相对飞行过程中,导弹接收机接收到的目标信号通常是与地杂波、海杂波或多路径信号混杂在一起的,它们是影响导弹武器低空制导性能的主要因素之一。对于射频环境仿真系统,为了评价导弹武器系统在多重杂波环境下攻击低空目标的能力,在对目标仿真的同时,也应具有模拟杂波环境的能力。故必须对杂波干扰进行建模并射频复现。文中给出了对杂波建模的基本方法,以及实现杂波谱实时计算所采
采用ProCAST软件对6061铝合金轮毂连接盘挤压铸造过程进行模拟。研究了浇注温度、模具预热温度、比压对铸件缩孔缩松的影响。结果表明,浇注温度700℃、模具预热温度300℃、比