基于流形学习的强化学习算法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:xjwyx770729
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何表示数据和怎样自动发现options是强化学习面临的两个巨大挑战。近年来分层强化学习在解决“维数灾难”问题方面取得了显著进展,其主要思想是将任务层次分解为子任务,从而加速智能体的学习和规划过程。目前的层次化分解方法基本都是根据先验知识预先设计好的,并不是自动生成的。特别是在动态变化的复杂领域,单凭先验知识预先设计层次结构,在实际应用中很难实现。子任务的自动发现问题已经成为分层强化学习研究领域的热点。流形学习作为一种重要的特征表示和降维技术,在模式识别中得到了广泛的研究。特征表示不仅对模式识别至关重要,而且对解决具有大规模或连续状态空间的序列决策问题也至关重要。因此,对于强化学习算法,非常有必要研究各种具有不同属性的特征学习方法,从而使其在不同的情况下获得更好的性能。为此,针对目前options发现方法中仍然存在的一些问题与不足,本文主要从策略构建方面和options的构造方面展开研究,提出相应的改进算法。主要研究工作如下:第一,针对options发现问题,本文提出了一种基于拉普拉斯特征映射的options自动发现算法。该算法通过PVFs间接定义options来解决options自动发现问题,通过定义特征目的和特征行为的概念,从特征目的中发现的options引导智能体遍历整个状态空间,所发现的options在不同的时间尺度上起作用且容易被序列化,可以帮助智能体更好地探索环境。此外,本文所提算法采用?-贪心策略来平衡探索和利用,行为策略在原生动作集和options之间以一定比例进行选择,有助于智能体探索整个状态空间,从而改进探索。第二,当前的options发现算法不能和表示学习结合起来,此外,目前的特征选项发现算法仅可用于状态可以被枚举的环境中。针对这一问题,主要介绍了利用表示学习方法指导options发现过程的思想,通过后继表示(SR)估计DIF模型来解决上述问题。在options自动发现的基础上,利用PVFs和后继表示之间的等价性,定义了一种新的奖励函数,提出一种能够在学习表示的同时发现特征选项的算法。经过学习的SR替换了组合拉普拉斯矩阵,被用来发现特征选项。经实验证明,通过SR近似估计DIF模型得到的特征选项确实有助于智能体探索环境,如果能够快速地估计它,那么在环境中使用SR来近似DIF模型会更有意义。
其他文献
在事业单位发展中,预算管理占据了重要地位,积极做好预算管理工作,对内能够推动部门预算资金利用率的提升,保障专项业务的顺利进行;对外能够顺应社会发展的需求,最大限度发挥
通过对世界猕猴桃产业发展现状分析,列举世界猕猴桃生产先进国家新西兰在果品质量安全方面的先进经验,结合我国猕猴桃生产及果品质量安全的实际,剖析陕西猕猴桃生产、贮运和
大数据时代的到来以及研究数据的大量产出,推动科学范式向数据密集型科研范式转变。而随着密集型科研的发展,科研人员对研究数据的需求日益增长,高校作为科学研究的主要基地,对图书馆的服务模式提出了新的要求。图书馆应该开展针对性的数据服务内容,促进图书馆的服务转型。目前,关于高校研究数据管理与服务的研究不断涌现,国内外学者通过多维度来分析研究数据服务的理论进展和实践现状。然而早期数据服务的研究很少将用户需求
随着社会的发展和时代的进步,传统高职思政课教学内容已经无法满足现代高职教育的需求,需要尽快加以改革和创新。职业导向作为高职教育的重点内容,应当被有效融入到高职思政
肝素诱导性血小板减少症(heparin induced thrombocytopenia,HIT)是临床使用肝素治疗的不良反应之一,由抗血小板4因子-肝素复合物(PF4-H)抗体所介导的高血栓风险性疾病[1,2]。约
推进"以审判为中心"的诉讼制度改革,是党的十八届四中全会确定的司法改革方向。但"以审判为中心"并非发源于本土语境的理论话语。德国、日本、韩国等现代法治国家,均经历了确
水溶性共轭聚合物(WSCP)结合共轭聚合物的优良光电性质,同时也解决了生物相容性等问题,拓展了共轭聚合物高分子领域的应用范围,具有巨大的潜在应用前景。传统的WSCP探针不管
良好的后备牛饲养管理对牧场降本增效至关重要。在后备牛养殖过程中.饲喂成本是支出最大的部分.通常占总成本60%以上,而育成牛的饲喂往往又是各个牧场最容易忽视的地方。人们
在我国经济快速发展的今天,越来越多的人物质生活得到了充分的保障,人们对于自身的健康问题更加重视,便开始加入到体育锻炼活动中来。网球运动作为众多运动中的一项,因为其具
航空安全一直是伴随航空事业发展的重要问题,减少航空电气系统的火灾安全隐患可以有效的提高航空器飞行的可靠性。而故障电弧是引起航空电气系统火灾的重要原因。近几年,随着