平均奖赏MDP的在策略无模型激励学习算法

来源 :计算机工程与科学 | 被引量 : 0次 | 上传用户:zzyu888888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文以随机逼近的形式,提出了一些用于求解平均奖赏Markov决策过程系统方程的在策略无模型激励学习算法。这些算法与广泛且成功 应用于折扣奖赏MDP的SARSA(λ)类算法相似。为比较这些新算法的性能,本文还给出了一些初步的实验结果。
其他文献
随着高速集成电路的发展,以确保数字系统时间特性正确性为目标的时延测试非常重要.基于通路时故障模型的通路时延测试是时延测试研究的主流.本文对目前通路时延测试领域的主
随着我国房地产开发企业数量越来越多,竞争越来越激烈,营运资金管理作为房地产开发企业经营的关键环节。如果企业营运资金短缺,企业的投资、建设项目等活动就会受到重大影响;
首届"江西省陶瓷技能大师"评选活动是经会员大会共同决定的一项活动。有关评选通知初稿、评选标准、程序等,都是由协会理事会和常务理事会共同拟定并举手通过的。2014年7月14日
我们的数学教学应该在重视基础知识教学的基础上多研究一些学生的创造性学习问题,让学生在做中感悟、发现,变"学算术"为"做数学".学生的"头脑不是一个要被填满的容器,而是一支需被
随着政府对产业结构的不断调整和优化,农业生产逐步向着产业化和规模化方向发展。如何把分散的农户集中起来进行大规模生产是一个技术性难题。而农民专业合作社的功能就是将
钟长权笔名大中,江西省第二届首席技师,江西省高级技师(国家一级技师)。学艺于粉彩非物质文化遗产传承人江汉老师,深造在张松茂大师高研班,张松茂大师研究院研究生。
曹明亮,1962年7月生。江西省浮梁人。江西省高级陶瓷美术师、江西省高级工艺美术师。1993年毕业于陶瓷职工大学美术系。中国工艺美术学会会员、江西省工艺美术学会会员、江西
本文讨论了内联网数据仓库技术的需求和实现,提出了由操作数据层、数据提取层、数据仓库层、分析处理层和用户层构成的五层结构的企业内联网数据仓库系统,并详细探讨了建立实用
震害调查表明,强震下液化侧扩流场地桥梁桩基破坏严重。为此,国内外学者针对液化侧扩流场地桥梁桩基抗震问题开展了大量卓有成效的研究尝试。本文系统总结并评述了液化侧扩流
目的探讨复合式小梁切除术治疗原发性闭角型青光眼的效果。方法96例原发性闭角型青光眼患者作为研究对象,以随机数字表法将其分为对照组与研究组,各48例。对照组采取传统小梁