平均报酬模型的多步强化学习算法

来源 :控制理论与应用 | 被引量 : 0次 | 上传用户:liongliong499
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
讨论模型未知的平均报酬强化学习算法。通过结合即时差分学习与R学习算法,将折扣问题中的一些方法推广到了平均准则问题中,提出了两类算法:R(λ)学习。现有的R学习可视为R(λ)学习和TTD(λ)学习当λ=0时的一个特例。仿真结果表明,λ取中间值的R(λ)和TTD(λ)学习比现有的方法在可靠性与收敛速度上均有提高。
其他文献
基于具有$m个输入、至多m+2个状态变量的可控无漂移系统为微分平面系统这样一个事实,通过动态扩展原理和自适应控制技术,本文提出了一种针对三轮移动机器人轨迹跟踪问题的鲁
D-A反应是合成六员环的常用方法。由于D-A反应是可逆的,在温度较高时,反D-A反应占优势。反D-A反应在基础有机化学中应用于某些有机化合物的分离、结构鉴定、基团保护、特殊化
对机器状态的变化为非齐次马尔可夫过程,带内部缓冲栈的单工件-两机器串联生产系统的最优生产率和维护率进行研究,给出了最优维护率的结构,得到最优生产率由安全面和临界面确定的
提出一种新的基于混合基因算法(HGA)的非线性回归模型参数估计算法.新算法通过对问题的解空间交替进行全局和局部搜索,达到快速收敛至全局最优解,较好地解决了传统算法通用性
邓小平政治合法性理论是以经济绩效为主、意识形态为辅.有合理性也有局限性.科学发展观是对邓小平政治合法性理论的丰富发展,为新时期巩固党的执政合法性指明了方向.
理工科院校开设文献检索课,是为了培养大学生的情报意识,懂得如何获得与利用文献情报,增强自学能力和研究能力。在教学过程中应该实施启发式教学法,作者就文献检索课应重视启
讨论了具有时滞的非线性不确定鲁里叶控制系统的鲁棒绝对稳定性问题.应用Bellman-Gronwell不等式和Lyapunov泛函方法研究了不确定鲁里叶控制系统的鲁棒绝对稳定性并给出了系
为了更好地促进博士研究生的英语教学,本文作者对中国地质大学(北京)一年级的非英语专业博士研究生进行问卷调查。通过调查了解博士研究生英语学习的基本情况、学习的态度及
【正】泛读课是英语专业的一门必修课。它的目的是“扩大阅读范围,增加词汇数量,提高阅读速度,丰富语言知识,增强英语语感,培养学生独立阅读和广泛阅读的能力。”随着改革的
1840年6月21,英国侵华军总司令、全权代表乔治·懿律及海军司令伯麦率舰队抵达澳门,次日宣布自6月28日起封锁珠江口,鸦片战争正式爆发了。从此以后,中国开始沦入半殖民地半封