激励学习的若干新算法及其理论研究

来源 :上海大学 | 被引量 : 0次 | 上传用户:bbshisegui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本博士论文大体上可以分成两大部分,第一部分我们给出了激励学习的一些新算法,其目的是为了改进现有算法所面临的诸于维数灾难与计算速度等问题。第二部分是我们在基于风险敏感度概念的基础上,研究了与激励学习有关的最优方程与最优解的理论问题。本论文首先提出了一种新的激励学习算法,即我们所说的激励学习的遗忘算法。这种算法的基本思想是基于下面的考虑:以前的有关激励学习算法都只是通过对状态被访问次数的短时记忆来确定状态值函数空间的更新长度。对于这些算法来说,无论是用lookup表的形式,还是用函数逼近器的形式,对所有状态的值函数都必须要全部记忆。这些方法对大状态空间问题会导致需要指数增长的记忆容量,从而呈指数地减慢计算速度。Sutton等人考虑过这个问题,但始终没有得到满意的解决方案。基于上述考虑,将记忆心理学中有关遗忘的基本原理引入值函数的激励学习算法的研究之中,特别是对于著名的SARSA(λ)算法,形成了一类适合于值函数激励学习的遗忘算法。我们提出了基于效用聚类的激励学习算法。这种算法的模型使用了POMDP的某些概念。在激励学习的诸多算法中,把非常多的精力集中在如何对系统的大状态空间进行有效的分解,其中U-Tree算法是其之一。但是,由于U-Tree算法的一个最大的问题是边缘节点生成的随意性和统计检验的计算负担,各种扩展方法都没有解决这个问题。本文提出了一种新的效用聚类激励学习算法,即我们称之为U-Clustering算法。该算法完全不用进行边缘节点的生成和测试,克服了上述提及的U-Tree算法的致命弱点。我们的新算法首先根据实例链的观测动作值对实例进行聚类,然后对每个聚类进行特征选择,最后再进行特征压缩,经过压缩后的新特征就成为新的叶节点。实验与仿真结果表明,我们的新算法比一般的U-Tree算法更有效。针对具有大状态空间的环境系统以及系统状态不完全可观测所面临的问题,本论文提出了求解部分可观测Markov决策过程的动态合并算法。这个方法利用区域这个概念,在环境状态空间上建立一个区域系统,而Agent在区域系统的每个区域上独自实现其最优目标,就好像有若干个Agent在并行工作一样。然后把各组成部分的最优值函数按一定的方式整合,最后得出POMDP的最优解。另外还对提出的算法进行了复杂度分析和仿真实验。通过对New York Driving的仿真和算法的实验分析,结果表明动态合并算法对于大状态空间上的求解问题是一个非常有效的算法。本文提出了风险敏感度的激励学习广义平均算法。这个算法通过潜在地牺牲解的最优性来获取鲁棒性(Robustness)。提出这种算法的主要原因是因为,如果在理论模型与实际的物理系统之间存在不匹配,或者实际系统是非静态的,或者控制动作的“可使用性”随时间的变化而变化时,那么鲁棒性就可能成为一个十分重要的问题。我们利用广义平均算子来替代最大算子max(或sup),对激励学习问题中的动态规划算法进行了研究,并讨论了它们的收敛性,目的就是为了提高激励学习算法的鲁棒性。我们提出了风险敏感度渐进策略递归激励学习算法并对策略的最优性进行了讨论。当系统的计算出现维数灾难时,比如在Markov决策过程的求解问题中,如果系统的动作空间非常之大,那么利用一般的策略递归(PI)算法或值递归(Ⅵ)算法,来进行策略的改进计算是不实际的。我们这个算法所关注的问题是,当状态空间相对较小而动作空间非常之大时如何得到最优策略或好的策略。在本算法的策略改进过程中,不需在整个动作空间上对值函数进行最大化运算,而是通过策略转换的方法来直接处理策略问题的。本文的另一个主要内容是,我们对多时间尺度风险敏感度Markov决策过程的最优方程与解的最优性问题进行了初步研究。由于需要使智能体能够适应更加复杂的环境,因此大规模控制问题在实际应用中显得越来越重要。在本章中采用了一种更加符合实际情况的复杂环境,即多时间尺度下的Markov决策过程模型,并利用风险敏感度的概念,第一次提出了多时间尺度风险敏感度Markov决策过程的概念。这是一个全新的问题。我们利用效用函数和风险敏感度等概念,讨论了二时间尺度风险敏感度Markov决策问题,然后给出了二时间尺度风险敏感度Markov决策过程的Bellman最优控制方程的一般形式,并证明了最优值函数满足这个Bellman最优控制方程,同时还得到了一些相关的结论。本博士论文所讨论的都是现阶段关于激励学习的热点和难点问题。激励学习方法已经成为控制理论与人工智能研究的最重要的分支之一,还有许多问题亟待解决。在本文的最末,我们给出了对这些问题的研究方向和未来的工作,希望能起到抛砖引玉的作用。
其他文献
<正>慢性阻塞性肺疾病(chronic obstructive pulmonary disease,COPD)是一种具有气流受限特征的可以预防和治疗的疾病,气流受限不完全可逆、呈进行性发展,与肺部对香烟烟雾等
1994年分税制改革之后,地方政府为了发展经济,面临财政收入不足以满足地方政府支出的情况下,就必然需要举借外部资金来满足日益增长的资金需求,但是由于旧《预算法》中明确规
基于目前网络、智能手机等新媒体的出现给“微课”带来契机,设计一种基于微课的体育教学新模式是符合体育教学改革趋势.以微课以及体育微课概念为切入点,梳理了我国体育微课现状
目的评价3种不同中医治则治疗男性不育症(少弱精子症)患者的疗效及安全性。方法 128例男性不育症患者中医辨证分别为肾精亏虚证、脾肾两虚证、肾虚血瘀证。按分层随机以3∶1
在小学英语教学中,"合作学习"已普遍为广大小学英语老师所接受,许多一线教师利用这种新型的学习模式给英语课堂注入了生机与活力,取得了较好的教学效果。但是也有不少教师在
<正>不同资助机构对项目标书有着不同的设计要求,资助机构的要求可作为项目设计工作的指南和大纲。虽然由于机构要求不同,项目可行性报告的格式多种多样,但其内容都很类似。
多丽丝·莱辛的作品《玛拉和丹恩历险记》被普遍认为是具有生态预警意义的小说,其中也包含着对女性生存环境的思考。本文将从生态女性主义的视角,分析作品中所体现的生态女性
进一步分析讨论Shacham和Waters提出的环签名方案的潜在性质,提出相应的门限环签名方案。与wei和Yuen的方案相比,在无随机谕示模型下,该门限环签名方案的安全性证明基于标准假设
本文通过对地铁站火灾特点的梳理,以及对已有火灾仿真模型的模拟结果的分析归纳,得到地铁站火灾防范和救援的基本思路与结论,为地铁站的设计和管理提供相关参考。 This pape
边部锌层厚度控制是热镀锌带钢生产中一个极重要的问题,从气刀喷吹原理入手,分析了边部锌层增厚产生原因及其对生产的影响;结合宝钢热镀锌机组的技术改造,实施了控制边部增厚