有效的自适应λ即时差异学习(英文)

来源 :北京理工大学学报：英文版 | 被引量 : 0次 | 上传用户：xyw6623

【摘要】

：

目的　寻求更有效的解决延迟强化学习任务的基于即时差异的学习算法．方法　针对吸收马氏决策过程提出一种λ取值具有自适应性的基于截断ＴＤ（ λ）的Ｑ学习算法，并在计算机上实现

【作者】

：

毕金波吴沧浦

【机构】

：

北京理工大学自动控制系!北京100081

【出处】

：

北京理工大学学报：英文版

【发表日期】

：

1999年3期

【关键词】

：

动态规划延迟强化学习吸收马尔可夫过程即时差异学习 Q学习 dynamic programming delayed reinforcement learn

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

目的　寻求更有效的解决延迟强化学习任务的基于即时差异的学习算法．方法　针对吸收马氏决策过程提出一种λ取值具有自适应性的基于截断ＴＤ（ λ）的Ｑ学习算法，并在计算机上实现了该算法．结果与结论　在最短路径搜索问题上的仿真研究表明采用自适应λ的基于截断ＴＤ（λ）的Ｑ学习能够加速算法收敛。

其他文献

圆柱坐标系下的网格波阻抗及其应用(英文)

从圆柱坐标系下麦克斯韦方程的时域有限差分式和特征解出发 ,引入了二维和三维圆柱坐标系下网格波阻抗 (MWI) .结合完全匹配吸收层 (PML)概念 ,推导出了二维圆柱坐标系下的MW

期刊

网格波阻抗圆柱坐标系时域有限差分完全匹配层吸收边界条件mesh wave impedance cylindrical coordinates fi

小口径挤密桩在危房地基加固中的应用

本文结合工程实践介绍用小口径挤密桩加固危房地基的原理和方法。

期刊

危房地基处理小口径挤密桩

吉林省地市区域农村居民消费特征研究

吉林省的消费率明显高于全国平均水平及邻省,而吉林省的农村居民消费所占比重却持续降低。运用空间自相关检验模型对吉林省地市区域的农村居民收入和消费价格指数的空间依赖

期刊

吉林省地市区域农村居民消费特征研究Jilin province region consumption of rural residents cha

电动汽车储能电池组管理系统的研制(英文)

研制一种电动汽车储能电池组管理系统 ,该系统可预测电池组剩余电量和车辆剩余里程 ,判断电池是否需要充电、是否损坏或是否因老化而需要更换 .系统能显示电池组总电压、单块

期刊

电动汽车剩余电量故障诊断铅酸蓄电池electric vehicle (EV) residual capacity trouble diagnosis

采用一种新型神经网络的动态系统辨识与控制(英文)

目的　研究动态系统的神经网络辨识与控制问题．方法　为了减小网络的固有逼近误差，提出一种新型的神经网络模型，利用动态误差反馈来修正网络输入．结果　得到了由新型网络和稳定

期刊

非线性系统神经网络自适应控制系统辨识nonlinear systems neural networks adaptive control syst

多步 R 学习算法(英文)

目的　讨论平均准则下控制马氏链的强化学习算法，在事先未知状态转移矩阵及报酬函数的条件下，通过试凑法寻找使得长期每阶段期望平均报酬最大的最优控制策略．方法　结合平均报

期刊

强化学习平均报酬R学习MARKOV决策过程即时差分学习reinforcement learning average reward Rlearnin

威布尔分布特性的定量研究(英文)

目的　对威布尔分布３个特性进行定量研究．方法　对威布尔三参数方程进行理论分析，并用数学软件进行图解分析．结果　导出１７个算式和７幅图．结论　在标准型下，威布尔的概率密度函数

期刊

威布尔分布特性准零点概率密度函数(pdf)characteristics of Weibull distributions quasizero poin

New Fatigue Test and Statistical Method for Metalic Materials Used in Vehicle Transmisions

目的提供一种高效率的金属材料疲劳试验和数据处理的统计方法，减少试样数目，降低试验成本．方法采用概率统计方法及最小二乘法进行研究．结果与结论对试验过程中的概念重新进行了讨

期刊

疲劳试验统计方法试样fatigue test statistical method test specimens

近程雷达目标多分量信号处理(英文)

研究近程雷达FM多分量信号条件下目标距离测量 .利用目标多点散射模型、TLS ESPRIT和数理统计方法确定平均距离 .计算单分量信号瞬时频率的方法不适合于多分量信号 .多分量信

期刊

近程雷达多分量信号TLSESPRIT方法瞬时频率short range radar multicomponent signal TLS?ESPRIT

智能雷弹随动系统控制方案研究(英文)

根据随动系统的性能指标要求 ,通过对目标运动规律的分析 ,提出了变结构与时间最优理论 ,并对系统的控制方案进行了三方面的仿真研究 (动态响应仿真、复合控制仿真和动态跟踪

期刊

变结构控制复合控制控制器系统分析仿真structurechanging control compound control controller

有效的自适应λ即时差异学习(英文)

与本文相关的学术论文