有效的自适应λ即时差异学习(英文)

来源 :北京理工大学学报:英文版 | 被引量 : 0次 | 上传用户:xyw6623
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的 寻求更有效的解决延迟强化学习任务的基于即时差异的学习算法. 方法 针对吸收马氏决策过程提出一种λ取值具有自适应性的基于截断 T D( λ) 的 Q 学习算法,并在计算机上实现了该算法. 结果与结论 在最短路径搜索问题上的仿真研究表明采用自适应λ的基于截断 T D(λ) 的 Q 学习能够加速算法收敛。
其他文献
从圆柱坐标系下麦克斯韦方程的时域有限差分式和特征解出发 ,引入了二维和三维圆柱坐标系下网格波阻抗 (MWI) .结合完全匹配吸收层 (PML)概念 ,推导出了二维圆柱坐标系下的MW
本文结合工程实践介绍用小口径挤密桩加固危房地基的原理和方法。
吉林省的消费率明显高于全国平均水平及邻省,而吉林省的农村居民消费所占比重却持续降低。运用空间自相关检验模型对吉林省地市区域的农村居民收入和消费价格指数的空间依赖
研制一种电动汽车储能电池组管理系统 ,该系统可预测电池组剩余电量和车辆剩余里程 ,判断电池是否需要充电、是否损坏或是否因老化而需要更换 .系统能显示电池组总电压、单块
目的 研究动态系统的神经网络辨识与控制问题. 方法 为了减小网络的固有逼近误差,提出一种新型的神经网络模型,利用动态误差反馈来修正网络输入. 结果 得到了由新型网络和稳定
目的 讨论平均准则下控制马氏链的强化学习算法,在事先未知状态转移矩阵及报酬函数的条件下,通过试凑法寻找使得长期每阶段期望平均报酬最大的最优控制策略. 方法 结合平均报
目的 对威布尔分布3 个特性进行定量研究. 方法 对威布尔三参数方程进行理论分析,并用数学软件进行图解分析. 结果 导出17 个算式和7 幅图. 结论 在标准型下,威布尔的概率密度函数
目的提供一种高效率的金属材料疲劳试验和数据处理的统计方法,减少试样数目,降低试验成本.方法采用概率统计方法及最小二乘法进行研究.结果与结论对试验过程中的概念重新进行了讨
研究近程雷达FM多分量信号条件下目标距离测量 .利用目标多点散射模型、TLS ESPRIT和数理统计方法确定平均距离 .计算单分量信号瞬时频率的方法不适合于多分量信号 .多分量信
根据随动系统的性能指标要求 ,通过对目标运动规律的分析 ,提出了变结构与时间最优理论 ,并对系统的控制方案进行了三方面的仿真研究 (动态响应仿真、复合控制仿真和动态跟踪