论文部分内容阅读
Q学习算法是Watkins[1]提出的求解信息不完全马尔可夫决策问题的一种强化学习方法.要用Q学习算法来求解有连续状态和决策空间的随机最优控制问题,则需要先离散化问题的状态和决策空间.在本文中,我们证明了在满足一定的Lipschitz连续性和有关集合为紧集的条件下,随着网格密度的增加,空间离散化后Q学习算法求得的最优解依概率1收敛于原连续问题的最优解.