多步R学习算法

来源 :北京理工大学学报(英文版) | 被引量 : 0次 | 上传用户:kjasdg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的讨论平均准则下控制马氏链的强化学习算法,在事先未知状态转移矩阵及报酬函数的条件下,通过试凑法寻找使得长期每阶段期望平均报酬最大的最优控制策略.方法结合平均报酬问题的一步学习算法和即时差分学习算法,提出了一种多步强化学习算法--R(λ)学习算法.结果与结论新算法使得已有的R学习算法成为其λ=0时的特例.同时它也是折扣报酬Q(λ)学习算法到平均报酬问题的自然推广.仿真结果表明λ取中间值的R(λ)学习算法明显优于一步的R学习算法.
其他文献
Pseudomonas mendocina strain 0806 isolated from oil-contaminated soil was found to produce medium chain length polyhydroxyalkanoates (mcl PHAs).The mcl PHAs con
The projected shell model is applied to the nucleus 129La.The present results of theoretical calculations about the one-quasiproton bandsare compared with exper
目的研究动态系统的神经网络辨识与控制问题.方法为了减小网络的固有逼近误差,提出一种新型的神经网络模型,利用动态误差反馈来修正网络输入.结果得到了由新型网络和稳定滤波
近年来,随着光盘和网络技术在国内的广泛应用,文献数据库工作也越来越受到科研管理部门的高度重视。然而在目前,国内医学期刊编辑部大多数还没有对文献数据库工作给予足够的重视
目的由聚合反应过程参数预测热塑弹性体的质量指标.方法利用神经网络技术建立产品的质量指标和聚合反应过程状态变量之间的映射关系,反应过程为万吨级工业生产装置间歇反应釜
Filtering efficiency of the Chinese-made filter 1 hasbeen measured by the double-filter method with only one set of measurementequipment. The β counts of the t
从可用输电能力和静态电压稳定两方面研究特高压直流输电系统不同运行状态对交直流并联电网供电可靠性的影响.以RTS-96可靠性测试系统的2个直流电源接人方案和2015年华东某地
旅游规划目标作为对旅游发展全局性要求的简要、生动的反映,是旅游规划科学性、合理性的集中标志.旅游规划目标的制定,是依据有关基础条件和发展政策,对旅游发展的未来可能性所作
目的将交互多模型方法引入到两级估计中,提高交互式加速度补偿算法对系统位置和速度的估计精度.方法以非线性量测方程为依据,完成了混合坐标系下的状态估计,提出一种在混合坐
目的定义一种可靠性混合冗余模型,以提高C3I系统的可靠性.方法该模型结合双机单热备份模型和功能替代模型的技术特点,推导出此模型的可靠度和可用度计算公式.结果与结论通过