多步R学习算法

来源 :北京理工大学学报（英文版） | 被引量 : 0次 | 上传用户：kjasdg

【摘要】

：

目的讨论平均准则下控制马氏链的强化学习算法,在事先未知状态转移矩阵及报酬函数的条件下,通过试凑法寻找使得长期每阶段期望平均报酬最大的最优控制策略.方法结合平均报酬

【作者】

：

胡光华吴沧浦

【机构】

：

北京理工大学自动控制系

【出处】

：

北京理工大学学报（英文版）

【发表日期】

：

2004年期

【关键词】

：

强化学习平均报酬 R学习 Markov决策过程即时差分学习 reinforcement learning average reward R-learning

【基金项目】

：

国家自然科学基金;

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

目的讨论平均准则下控制马氏链的强化学习算法,在事先未知状态转移矩阵及报酬函数的条件下,通过试凑法寻找使得长期每阶段期望平均报酬最大的最优控制策略.方法结合平均报酬问题的一步学习算法和即时差分学习算法,提出了一种多步强化学习算法--R(λ)学习算法.结果与结论新算法使得已有的R学习算法成为其λ=0时的特例.同时它也是折扣报酬Q(λ)学习算法到平均报酬问题的自然推广.仿真结果表明λ取中间值的R(λ)学习算法明显优于一步的R学习算法.

其他文献

Production of Medium Chain Length Polyhydroxyalkanoates by Pseudomonas mendocina 0806 from Related a

Pseudomonas mendocina strain 0806 isolated from oil-contaminated soil was found to produce medium chain length polyhydroxyalkanoates (mcl PHAs).The mcl PHAs con

期刊

polyhydroxyalkanoatePHAPseudomonas mendocina

Study of rotational bands of 129La usingthe projected shell model

The projected shell model is applied to the nucleus 129La.The present results of theoretical calculations about the one-quasiproton bandsare compared with exper

期刊

Prolate shapePSM (Projected shell model)One-quasiproton band

采用一种新型神经网络的动态系统辨识与控制

目的研究动态系统的神经网络辨识与控制问题.方法为了减小网络的固有逼近误差,提出一种新型的神经网络模型,利用动态误差反馈来修正网络输入.结果得到了由新型网络和稳定滤波

期刊

非线性系统神经网络自适应控制系统辨识nonlinear systemsneural networksadaptive controlsystem

加强文献检索提高用稿质量

近年来，随着光盘和网络技术在国内的广泛应用，文献数据库工作也越来越受到科研管理部门的高度重视。然而在目前，国内医学期刊编辑部大多数还没有对文献数据库工作给予足够的重视

期刊

期刊数据库文献检索审稿

神经网络预测热塑弹性体的质量指标

目的由聚合反应过程参数预测热塑弹性体的质量指标.方法利用神经网络技术建立产品的质量指标和聚合反应过程状态变量之间的映射关系,反应过程为万吨级工业生产装置间歇反应釜

期刊

神经网络过程模型在线检测聚合反应釜neural networkprocess modelingon-line supervisionpolymer

Filtering-efficiency measurement of Chinese-made filter 1 by double-filter method

Filtering efficiency of the Chinese-made filter 1 hasbeen measured by the double-filter method with only one set of measurementequipment. The β counts of the t

期刊

Double-filter methodSingle setmeasuring systemFiltering efficiency

特高压直流对交直流并联电网供电可靠性影响

从可用输电能力和静态电压稳定两方面研究特高压直流输电系统不同运行状态对交直流并联电网供电可靠性的影响.以RTS-96可靠性测试系统的2个直流电源接人方案和2015年华东某地

期刊

特高压直流系统供电可靠性静态电压稳定性可用输电能力

旅游规划的目标与指标

旅游规划目标作为对旅游发展全局性要求的简要、生动的反映，是旅游规划科学性、合理性的集中标志．旅游规划目标的制定，是依据有关基础条件和发展政策，对旅游发展的未来可能性所作

期刊

旅游规划目标与指标

基于距变率量测的改进交互式加速度补偿算法研究

目的将交互多模型方法引入到两级估计中,提高交互式加速度补偿算法对系统位置和速度的估计精度.方法以非线性量测方程为依据,完成了混合坐标系下的状态估计,提出一种在混合坐

期刊

距变率量测交互加速度补偿算法两级估计range rate measurementinteractive acceleration compensatio

C3I系统中一种混合冗余模型的可靠性分析

目的定义一种可靠性混合冗余模型,以提高C3I系统的可靠性.方法该模型结合双机单热备份模型和功能替代模型的技术特点,推导出此模型的可靠度和可用度计算公式.结果与结论通过

期刊

C3I系统可靠性分析混合冗余模型C3I systemreliability analysismixed redundant model

多步R学习算法

与本文相关的学术论文