论文部分内容阅读
针对确定性马尔克夫决策过程,本文提出了一种基于支持样本的快速增强学习算法。文章首先把学习问题形式化为一个确定性的马尔可夫决策过程,并对问题空间中每个状态的总回报值进行估计,根据总回报估计值与累积总回报估计值的大小关系,提出了支持样本的概念,即在大量的训练样本中,提取出值得我们信赖的那些样本;然后建立状态空间与动作空间之间的对应关系,用得到的支持样本进行最小二乘逼近,得到了快速有效的策略函数;最后,通过仿真实验,证明了方法的有效性。