论文部分内容阅读
文中利用求解最优费用函数的方法给出了一种新的激励学习算法 ,即基于每阶段平均费用最优的激励学习算法。这种学习算法是求解信息不完全Markov决策问题的一种有效激励学习方法 ,它从求解分阶段最优平均费用函数的方法出发 ,分析了最优解的存在性、分阶段最优平均费用函数与初始状态的关系以及与之相关的Bellman方程。这种方法的建立 ,可以使得动态规划 (DP)算法中的许多结论直接应用到激励学习的研究中来