论文部分内容阅读
增强学习已经开始向关系增强学习发展,并且产生了许多新的算法。这些方法是将命题表达提升为关系或计算逻辑的表达。提出了一种新的表达形式,称为逻辑半马尔可夫决策过程。它是将逻辑程序与半马尔可夫过程相结合。在此框架中,抽象(状态或行动)是至关重要的,并且提出了对于逻辑半马尔可夫决策过程的Q一学习算法,给出其收敛证明。这种框架对在关系增强学习发展中处理时间连续方面提供了一个合理的基础。