平均报酬模型的多步强化学习算法

来源 :控制理论与应用 | 被引量 : 0次 | 上传用户：liongliong499

【摘要】

：

讨论模型未知的平均报酬强化学习算法。通过结合即时差分学习与Ｒ学习算法，将折扣问题中的一些方法推广到了平均准则问题中，提出了两类算法：Ｒ（λ）学习。现有的Ｒ学习可视为Ｒ（λ）学习和ＴＴＤ（λ）学

【作者】

：

胡光华吴沧浦

【机构】

：

北京理工大学自动控制系

【出处】

：

控制理论与应用

【发表日期】

：

2000年5期

【关键词】

：

R学习强化学习算法平均报酬模型机器学习 reinforcement learning temporal difference learning Mar

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

讨论模型未知的平均报酬强化学习算法。通过结合即时差分学习与Ｒ学习算法，将折扣问题中的一些方法推广到了平均准则问题中，提出了两类算法：Ｒ（λ）学习。现有的Ｒ学习可视为Ｒ（λ）学习和ＴＴＤ（λ）学习当λ＝０时的一个特例。仿真结果表明，λ取中间值的Ｒ（λ）和ＴＴＤ（λ）学习比现有的方法在可靠性与收敛速度上均有提高。

其他文献

一种关于移动机器人的自适应变结构控制方法

基于具有$m个输入、至多m+2个状态变量的可控无漂移系统为微分平面系统这样一个事实,通过动态扩展原理和自适应控制技术,本文提出了一种针对三轮移动机器人轨迹跟踪问题的鲁

期刊

移动机器人动态反馈精确线性比自适应变结构控制mobile robotsunderactuated nonlinear systemsdynamic

反Diels-Alder反应在基础有机化学中的应用

D-A反应是合成六员环的常用方法。由于D-A反应是可逆的,在温度较高时,反D-A反应占优势。反D-A反应在基础有机化学中应用于某些有机化合物的分离、结构鉴定、基团保护、特殊化

期刊

反Diels-Alder反应基础有机化学定位效应杂环化合物有机化合物加成物DIELS-ALDER反应顺丁烯加热裂解裂解产物

两机器串联生产系统在随机状态下的最优生产和维护策略的研究

对机器状态的变化为非齐次马尔可夫过程，带内部缓冲栈的单工件－两机器串联生产系统的最优生产率和维护率进行研究，给出了最优维护率的结构，得到最优生产率由安全面和临界面确定的

期刊

动态规划HJB方程最优生产维护策略生产系统dynamic programming HJB equation hedging point polic

一种新的非线性回归模型参数估计算法

提出一种新的基于混合基因算法(HGA)的非线性回归模型参数估计算法.新算法通过对问题的解空间交替进行全局和局部搜索,达到快速收敛至全局最优解,较好地解决了传统算法通用性

期刊

混合基因算法参数估计最小二乘估计非线性回归模型算法genetic algorithm nonlinear parameter estimation

科学发展观对邓小平政治合法性理论的发展

邓小平政治合法性理论是以经济绩效为主、意识形态为辅.有合理性也有局限性.科学发展观是对邓小平政治合法性理论的丰富发展,为新时期巩固党的执政合法性指明了方向.

期刊

合法性理论邓小平以经济建设为中心科学发展观Theory of Political Legitimacy Deng Xiao-ping Focus o

启发式教学在高校文献检索课中的运用

理工科院校开设文献检索课,是为了培养大学生的情报意识,懂得如何获得与利用文献情报,增强自学能力和研究能力。在教学过程中应该实施启发式教学法,作者就文献检索课应重视启

期刊

文献检索启发式教学高校

具有时滞的不确定鲁里叶控制系统的绝对鲁棒稳定性

讨论了具有时滞的非线性不确定鲁里叶控制系统的鲁棒绝对稳定性问题.应用Bellman-Gronwell不等式和Lyapunov泛函方法研究了不确定鲁里叶控制系统的鲁棒绝对稳定性并给出了系

期刊

不确定性鲁棒绝对稳定性鲁里叶控制系统时滞系统timedelayuncertaintyrobust absolute stabilityLurie

博士生英语学习态度和课堂需求的调查

为了更好地促进博士研究生的英语教学,本文作者对中国地质大学(北京)一年级的非英语专业博士研究生进行问卷调查。通过调查了解博士研究生英语学习的基本情况、学习的态度及

期刊

英语学习态度课堂需求博士研究生

大学英语泛读教学中的几点尝试

【正】泛读课是英语专业的一门必修课。它的目的是“扩大阅读范围,增加词汇数量,提高阅读速度,丰富语言知识,增强英语语感,培养学生独立阅读和广泛阅读的能力。”随着改革的

期刊

泛读教学几点尝试大学英语泛读课英文报刊读后独立工作陌刀参考书培养学

近代史上帝国主义对中国的经济掠夺

1840年6月21,英国侵华军总司令、全权代表乔治·懿律及海军司令伯麦率舰队抵达澳门,次日宣布自6月28日起封锁珠江口,鸦片战争正式爆发了。从此以后,中国开始沦入半殖民地半封

期刊

帝国主义经济掠夺近代史赔款鸦片战争上帝汇丰银行甲午战争资本输出盐税

平均报酬模型的多步强化学习算法

与本文相关的学术论文