论文部分内容阅读
在将强化学习应用于实际问题时,遇到的困难之一是如何根据连续的传感器输入信号来构造合适的状态表达.提出了一种自动构造状态空间的方法,采用基于决策树的强化学习模型,将传感输入空间离散化处理来构造一棵状态分类树,以便变分辨率地划分输入状态空间,并利用决策树来逼近值函数.提出的方法结合了基于短期记忆学习和统计推断方法的优点,仿真结果表明,该方法能够生成有效的状态表达和更快地进行学习。