无先验知识的部分可观测环境规划问题研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:pstolyb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
部分可观测环境下的智能体规划问题是人工智能领域的热点问题。要解决此类问题,一般需要先进行系统建模,之后再基于模型进行规划求解。部分可观测马尔科夫决策过程(Partially Observable Markov Decision Process,POMDP)模型是当前的主流建模方法。但是POMDP模型难以直接通过学习获得,这也导致了与之相关的大部分研究工作都需要将其设为确定己知的。即使针对模型不确定情况提出的BA-POMDP(Bayes-Adaptive POMDP)模型,也需要较多的先验知识才能保证最终效果。然而事先直接拥有准确系统模型或大量的先验知识是不现实的。预测状态表示(Predictive State Representation,PSR)模型作为部分可观测环境问题的另一种建模方法,完全基于可观测量进行建模,可以在无任何先验知识的情况下直接通过与环境的交互学习获得系统模型。然而目前关于如何使用PSR模型进行规划的研究还相对较少。基于PSR模型的优势,本文对无先验知识的部分可观测环境规划问题展开研究,主要工作和贡献包括以下几个方面:(1)蒙特卡洛树搜索(Monte Carlo Tree Search,MCTS)算法是一种有效的规划算法。本文首先结合离线学习的PSR模型与MCTS算法对无先验知识的部分可观测环境规划问题进行解决。由于原始PSR模型不包含系统奖励信息,并不能很好地应用到规划问题中。本文对原始PSR模型做出了相应改进,通过将奖励信息作为观测的一部分进行处理以解决这一问题。在此基础上,本文接着根据PSR模型的结构特点,对MCTS算法做出调整,将PSR模型应用到MCTS算法中,并提出了 PSR-MCTS算法。该算法的基本思想是首先通过训练数据离线学习系统的PSR模型,之后再将所得模型与MCTS算法相结合进行规划求解。(2)基于离线模型的规划算法不能有效利用规划过程中获得的数据,造成了数据的浪费,并且需要一次性存储大量的离线数据。在训练数据获取难度较大的情况下,需要尽量根据现有知识做出有效的决策,并同时利用决策过程中获得的数据对当前算法继续进行改进。基于在线谱方法能够对PSR模型进行在线学习更新的特点,本文对PSR-MCTS算法做出进一步改进,提出了 PSR-MCTS-Online算法用于解决无先验知识条件下的部分可观测环境在线学习规划问题。该算法可以在规划过程可以继续改善算法效果,实现了从零开始的在线学习规划。
其他文献
党的十八大以来,随着精准扶贫方略的深入推进,各地聚焦“精准”制定扶贫规划,立足“精细”采取扶贫措施,形成了各具特色的扶贫经验,取得了明显的脱贫成效。总体来看,贫困人口规模大幅缩减,贫困地区居民收入持续提高。本文在明晰相关概念、梳理相关理论、述评研究现状的基础上,分析了我国实施精准扶贫方略的社会背景、现实意义与实施成效。以吉林省辽源市为研究对象,围绕增强脱贫内生动力、降低扶贫领域财政负担、构建多元主
普通小麦是具有三个基因组(ABD)的双二倍体(2n=6x=42),它被认为是四倍体Trugidum(2n=4x=28,AABB)和二倍体Aegilopstauschii(2n=2x=14,DD)(Yang et al.2009)自然杂交加倍产生
为筛选出对苹果树腐烂病菌菌丝生长抑制作用效果较好以及对离体枝条的保护作用较强的矿物源药剂,以期获得具有良好防效、对环境友好的矿物源药剂,进一步为生产中防治苹果树腐
本文以外国学生非受事宾语的习得情况作为主要研究对象,以中介语语料库作为平台搜集相关语料,同时采取问卷调查的方式进行分析。除绪论外,本文的研究主要可以分成以下四个部
化石燃料的快速消耗和全球气候变暖所带来的威胁使得人们开始积极寻求可再生的清洁能源,从而减少对不可再生能源的依赖。挖掘基于生物质的可再生燃料如生物乙醇常被视为解决
改革开放以来,中国在保持经济快速增长的同时由于产业结构的不合理带来了严重的环境污染和生态破坏,一些污染群体性事件相继爆发,环境污染问题已经成为威胁居民健康和社会稳
各种不同厚度的铝合金板材是制造业中重要的原材料,在我国的制造、航空、运输等领域得到广泛应用,因此对板材质量的无损检测显得尤为重要。近年来各种无损检测技术发展迅速,针对中厚铝合金板材(厚度≥6mm)适宜采用超声体波对其进行检测,较薄铝合金板材(厚度<6mm)宜于采用超声兰姆波对其进行检测。与常规压电超声检测技术相比,电磁超声检测技术具有非接触、无需耦合剂、适用于极端高低温检测等优点。因此,采用
农作物种子作为农业生产最基本的生产资料,是决定农产品产量和品质的基本因素,也是影响种粮效益的重要因素,种子的卖者与买者是对立统一的矛盾体,需要在市场机制与国家调控管理下协调发展。随着新《种子法》实施,农业供给侧结构性改革推进以及种业对外开放不断扩大,对种业生产经营与服务提出了新要求。本文首先通过文献的查阅,较系统梳理了国内外粮食作物种子经营服务体系的相关研究内容,界定了相关概念,并论述了涉及的理论
在中高级教学实践中,近义词教学一直都是一个难点,是由于在进入中级阶段的学习后,学习者接触的近义词明显增多。根据有关研究统计表明,近义词使用的偏误在词语使用偏误总量中
非线性系统吸引域分析和综合是控制科学中十分重要的研究问题。对于非线性时变系统(nonlinear time-varying,NTV),目前还缺乏成熟的吸引域分析和综合设计方法。本文在全新的