论文部分内容阅读
针对大规模离散空间中强化学习的“维数灾”问题,即状态空间的大小随着特征的增加而发生指数级的增长,提出了一种基于高斯过程的强化学习方法。在本方法中,高斯过程模型有表示函数分布的能力,使用该模型之后,可以得到的不只是一个所需的估计值,而是关于该值的一个分布。实验结果表明,结合了高斯过程的强化学习方法在各方面性能,如收敛速度以及最终实验效果等都有所提高。使用高斯方法的回归模型可以在一定程度上解决大规模离散空间上的“维数灾”问题。