论文部分内容阅读
本博士论文大体上可以分成两大部分,第一部分我们给出了激励学习的一些新算法,其目的是为了改进现有算法所面临的诸于维数灾难与计算速度等问题。第二部分是我们在基于风险敏感度概念的基础上,研究了与激励学习有关的最优方程与最优解的理论问题。本论文首先提出了一种新的激励学习算法,即我们所说的激励学习的遗忘算法。这种算法的基本思想是基于下面的考虑:以前的有关激励学习算法都只是通过对状态被访问次数的短时记忆来确定状态值函数空间的更新长度。对于这些算法来说,无论是用lookup表的形式,还是用函数逼近器的形式,对所有状态的值函数都必须要全部记忆。这些方法对大状态空间问题会导致需要指数增长的记忆容量,从而呈指数地减慢计算速度。Sutton等人考虑过这个问题,但始终没有得到满意的解决方案。基于上述考虑,将记忆心理学中有关遗忘的基本原理引入值函数的激励学习算法的研究之中,特别是对于著名的SARSA(λ)算法,形成了一类适合于值函数激励学习的遗忘算法。我们提出了基于效用聚类的激励学习算法。这种算法的模型使用了POMDP的某些概念。在激励学习的诸多算法中,把非常多的精力集中在如何对系统的大状态空间进行有效的分解,其中U-Tree算法是其之一。但是,由于U-Tree算法的一个最大的问题是边缘节点生成的随意性和统计检验的计算负担,各种扩展方法都没有解决这个问题。本文提出了一种新的效用聚类激励学习算法,即我们称之为U-Clustering算法。该算法完全不用进行边缘节点的生成和测试,克服了上述提及的U-Tree算法的致命弱点。我们的新算法首先根据实例链的观测动作值对实例进行聚类,然后对每个聚类进行特征选择,最后再进行特征压缩,经过压缩后的新特征就成为新的叶节点。实验与仿真结果表明,我们的新算法比一般的U-Tree算法更有效。针对具有大状态空间的环境系统以及系统状态不完全可观测所面临的问题,本论文提出了求解部分可观测Markov决策过程的动态合并算法。这个方法利用区域这个概念,在环境状态空间上建立一个区域系统,而Agent在区域系统的每个区域上独自实现其最优目标,就好像有若干个Agent在并行工作一样。然后把各组成部分的最优值函数按一定的方式整合,最后得出POMDP的最优解。另外还对提出的算法进行了复杂度分析和仿真实验。通过对New York Driving的仿真和算法的实验分析,结果表明动态合并算法对于大状态空间上的求解问题是一个非常有效的算法。本文提出了风险敏感度的激励学习广义平均算法。这个算法通过潜在地牺牲解的最优性来获取鲁棒性(Robustness)。提出这种算法的主要原因是因为,如果在理论模型与实际的物理系统之间存在不匹配,或者实际系统是非静态的,或者控制动作的“可使用性”随时间的变化而变化时,那么鲁棒性就可能成为一个十分重要的问题。我们利用广义平均算子来替代最大算子max(或sup),对激励学习问题中的动态规划算法进行了研究,并讨论了它们的收敛性,目的就是为了提高激励学习算法的鲁棒性。我们提出了风险敏感度渐进策略递归激励学习算法并对策略的最优性进行了讨论。当系统的计算出现维数灾难时,比如在Markov决策过程的求解问题中,如果系统的动作空间非常之大,那么利用一般的策略递归(PI)算法或值递归(Ⅵ)算法,来进行策略的改进计算是不实际的。我们这个算法所关注的问题是,当状态空间相对较小而动作空间非常之大时如何得到最优策略或好的策略。在本算法的策略改进过程中,不需在整个动作空间上对值函数进行最大化运算,而是通过策略转换的方法来直接处理策略问题的。本文的另一个主要内容是,我们对多时间尺度风险敏感度Markov决策过程的最优方程与解的最优性问题进行了初步研究。由于需要使智能体能够适应更加复杂的环境,因此大规模控制问题在实际应用中显得越来越重要。在本章中采用了一种更加符合实际情况的复杂环境,即多时间尺度下的Markov决策过程模型,并利用风险敏感度的概念,第一次提出了多时间尺度风险敏感度Markov决策过程的概念。这是一个全新的问题。我们利用效用函数和风险敏感度等概念,讨论了二时间尺度风险敏感度Markov决策问题,然后给出了二时间尺度风险敏感度Markov决策过程的Bellman最优控制方程的一般形式,并证明了最优值函数满足这个Bellman最优控制方程,同时还得到了一些相关的结论。本博士论文所讨论的都是现阶段关于激励学习的热点和难点问题。激励学习方法已经成为控制理论与人工智能研究的最重要的分支之一,还有许多问题亟待解决。在本文的最末,我们给出了对这些问题的研究方向和未来的工作,希望能起到抛砖引玉的作用。