论文部分内容阅读
本硕士论文中主要探讨了强化学习中的两个方法。一个是基于图模型的关系强化学习方法,另一个是结合核函数的函数估计方法。前者重点解决关系模型下先验规则的学习筛选。后者试图寻求自动的特征选择和学习来统一解决具有关系特征的问题和传统的强化学习问题。在强化学习中,有一类具有关系特征的问题往往难以用传统的基于表格的强化学习方法求解,最简单的例子就是Blocks World问题。这样的问题状态空间增长十分迅速,而空间遍历却越来越困难。对于这类问题,基于符号逻辑的策略表示体现出巨大的优势,也就是在强化学习中使用一介逻辑表示状态空间和动作空间。通过这种方式,问题的表示变得更为抽象,并且在这中表示下状态空间得到巨大的约减。这种强化学习问题被称为关系强化学习,也是本论文关注的问题之一。在关系强化学习的研究中,我们尝试了将图模型应用到策略表示和学习中,并提出了结合图模型的策略梯度上升方法。在Blocks World上的实验表明了图模型方法在给定先验知识的情况下能够快速的选择和优化知识从而达到最优或接近最优的策略。鉴于图模型方法中的规则需要手工给出,这不利于很多问题的求解,因为往往先验知识是困乏或者不充分的,这样学习的效果会很不理想。所以我们在论文的第五章探讨了如何使用核方法来自动的抽取特征并估计值函数。虽然目前我们还未能在关系强化学习问题上使用本文提出的核方法,但在传统的Mountain Car以及Acrobot问题上核方法的表现十分优异,效果较基于Tile Coding的函数估计方法优势明显。从目前的研究结果来看,核方法相较于图模型方法具有更大的挖掘潜力,我们还需要投入更多的精力和时间来增强核方法的适应能力和计算效率。