强化学习的高效探索方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:hongyun64
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是机器学习的重要分支,是实现通用人工智能的重要手段。与其他机器学习方法的不同之处在于,强化学习是一个主动学习的过程。智能体通过与环境交互来获得经验,通过最大化奖励来学习值函数和策略。强化学习的核心问题是如何提升智能体对环境的探索效率。在有限状态空间中,探索方法使用状态计数和值函数置信区间的估计来获得高概率近似正确的理论保证,然而这些方法并不能直接应用于高维状态空间的深度强化学习任务中。在高维空间和稀疏奖励环境中,由于智能体需要探索很大的空间且缺乏奖励的指导,所以需要结构化的探索策略来引导智能体探索未知的状态,从而在未来获得更大的回报。同时,环境的多模态和随机性会影响智能体对环境的探索效率,在学习中需要鲁棒的探索算法。另外,区别于单一目标的学习问题,在多目标探索中目标空间和状态空间的耦合会使探索总空间增加,需要高效的探索算法来学习多目标策略。研究强化学习中的高效探索方法是面对高维状态空间、解决稀疏奖励问题、应对多模态和随机性、学习多目标策略的重要手段。本文从不确定性度量、多模态、鲁棒性和多目标四个方面研究强化学习的高效探索方法。四个方面的研究内容针对不同的学习挑战,针对性的提升了智能体在复杂决策场景中的探索效率。主要研究内容如下:第一,提出了针对大规模任务的不确定性度量理论和后序奖励传递方法。在高维状态空间中使用认知不确定性来度量智能体对环境知识缺乏程度,使用重采样网络和贝叶斯后验估计来估计值函数的后验分布,从而有效地建模环境的认知不确定性,在高维状态空间中实现了通用的不确定性估计。在此基础上,使用乐观探索准则鼓励智能体探索认知不确定性较大的区域,并提供了不确定性度量的理论保证。针对延迟奖励导致的训练低效问题,提出了不确定性在周期内高效传播的方法,极大提升了样本利用效率,并提供了收敛保证。实验结果表明,提出的不确定性度量和后序更新方法能够在大规模任务中提供有意义的不确定性度量,并通过奖励后序传播的方法提升了样本的利用效率。第二,提出了针对多模态复杂环境的变分推断模型和内在激励探索理论。将多模态环境状态转移转化为条件生成过程,以状态、动作、隐变量为条件来预测下一时刻的状态,并在理论上给出了变分推断的学习目标。隐变量通过采样来编码环境的多模态和随机性,将状态转移的变分下界作为优化目标,使用随机梯度法和重参数化方法进行训练。相比于现有方法中将多模态探索作为期望意义下的单模态探索问题,提升了环境建模的准确性,能够建模复杂环境中的多模态转移。在此基础上,在探索中以隐变量为条件来衡量环境的内在激励,具有收敛保证。实验结果表明,提出的变分推断方法能够建模复杂任务的多模态环境转移,提升了智能体在多模态环境中的探索能力,同时在真实任务中有良好的表现。第三,提出了针对环境随机性的动态瓶颈表征学习理论和信息增益探索方法。使用信息瓶颈理论来学习鲁棒的表征,通过最大化合理状态转移的互信息来保留与任务相关的信息,通过最小化表征的信息量来去除与任务无关的信息。针对高维空间的互信息最大化问题,在理论上导出了基于预测目标和对比学习的互信息估计方法。在鲁棒的表征学习基础上,提出了信息增益的内在激励度量方法,证明了该激励与线性值函数近似下置信区间估计和有限状态下的状态计数的等价关系,具有理论保证。基于信息瓶颈的探索方法可以寻找环境中具有高信息量的状态,同时避免了任务无关噪声的干扰。实验结果表明,在图像观测中添加多种噪声的情况下,该方法能够在探索中对噪声具备高度的鲁棒性。第四,提出了针对多目标任务的偏差分析理论和偏差校正探索方法。现有的目标回放方法使用虚拟目标来替换原始目标,从而带来密集的奖励。在理论上分析了现有目标回放方法的假设合理性,并形式化的描述了多目标学习的优化函数和偏差。目标替换会带来轨迹概率的改变,从而给优化函数带来偏差。根据偏差产生的方式和变化情况提出了基于重要性采样的偏差校正方法,随后使用现有的策略网络来计算目标替换中产生的偏差。给出了偏差校正的因果推断理论解释,使用偏差裁剪和批投影的方式来解决了实际偏差校正中的稳定性问题。实验结果表明,在复杂的机械臂抓取和机械手操作任务中,偏差校正后的多目标学习算法能超越多个基线方法,同时不带来额外的计算代价。本文针对强化学习探索问题,从不确定性度量、多模态、鲁棒性和多目标四个方面研究了强化学习的探索效率问题,提升了智能体在高维状态空间和稀疏奖励下的探索能力,在解决多模态、随机性、多目标环境中的探索问题中发挥了作用,在理论上和实践上提升了智能体在复杂场景中的探索效率。
其他文献
海洋溢油是破坏性极大的海上污染物之一,会严重危害海洋生态,造成重大经济损失。在光照、海风、海浪等作用下,海面浮油会发生一系列物理化学变化,形成水包油(OW)、油包水(WO)油乳等不同污染形态。及时准确探测、识别不同形态溢油,并根据不同溢油种类做出相应处理措施,才可最大程度的降低溢油污染危害。遥感是检测、鉴别海面溢油的重要方式之一,而光学常数及辐射特性是进行遥感探测及识别的基础。开展溢油光谱、方向反
学位
大直径钢筒基础作为跨海大桥人工岛的围堰具有施工速度快,对海洋环境污染小等优点,因此逐渐在海洋工程中被广泛应用。当跨海大桥人工岛作用于软土地基,荷载作用下软土地基易产生大变形,导致软土强度特性随着土体变形的增大而产生显著非线性变化,软土地基中大直径钢筒基础受力机理复杂。目前对大直径钢筒基础在软土地基中的受力机理和破坏模式还认识不清,亟需开展软土地基中大直径钢筒基础受力机理和破坏模式的研究,为其在实际
学位
赋予机器理解人类语言的能力是人工智能的重要目标,机器阅读理解(Ma-chine Reading Comprehension)是以此为目 标的代表性自 然语言处理任务之一,旨在教会机器阅读自然语言文本并回答相关问题,机器需要具备一定的语言理解能力才能给出正确答案。近年来机器阅读理解受到学术界和产业界的共同关注,取得了令人瞩目的研究进展,技术成果也已融入真实业务系统。数据在这个过程中起到了关键作用,大
学位
运动物体非线性扰动两相界面广泛存在于医药学、仿生学和流动力学领域。该问题中不仅涉及物体与界面周围流体之间的相互影响,而且常伴着较为复杂的流动现象,例如向上运动的物体粒子穿越两相界面后液桥夹断和液膜包裹。运动物体出水后,尾部引起的液柱、液体飞溅和破碎等现象。因此本文对运动物体非线性扰动两相界面的问题进行数值研究,拟为自然界中该类流动现象给予合理的解释,并指导相关实验设计和工程应用。首先,基于动量守恒
学位
随着航空发动机逐步向高性能化的发展,其内部涡轮部件所承受的气动热载荷也随之提高,涡轮动叶的间隙泄漏流动对气动损失的影响也愈加强烈。因此相应的间隙泄漏流动控制方法也应运产生,主要包括叶顶凹槽、叶顶小翼和叶顶修型等被动控制方法。对于叶顶凹槽,其通过凹腔内部的旋涡结构可以显著地降低间隙泄漏流量,但会引起较大的掺混损失。对于叶顶修型,其产生的叶顶形状较为复杂不规则且造型方法也多种多样,没有明显的规律可循。
学位
波形端面动压型机械密封是核主泵的关键基础部件,起到防止高温、高压、具有辐射性流体泄漏的目的,其相关技术和产品受到国外的垄断。为了掌握波形端面动压型机械密封的设计和制造技术,论文开展了核主泵波形端面动压型机械密封的设计与开发。以波形端面动压机械密封为研究对象,考虑液膜的空化效应,建立密封理论模型,研究了在恒定和非恒定液膜厚度条件下运行工况参数对密封性能的影响规律,揭示了波形端面密封的运行机理。考虑密
学位
环境污染是人类共同关切的重大问题,面向工业源开发污染物的治理工艺及资源化利用方法,是符合我国可持续发展战略需求的关键举措。无论是污染物的吸附还是催化转化,其科学本质均为典型的气-固异相反应,多孔材料(如活性炭、分子筛)在其中扮演吸附剂或催化剂的角色。污染物的高效吸附和转化为多孔材料孔隙、骨架和表面官能团的精准构筑提出了更高需求。基于上述研究背景,本文探究了典型污染物分子(SO2、NO和苯系VOCs
学位
熊式一改编译介的话剧《王宝川》在欧洲风靡一时,对我国现有的跨文化戏剧改编有着重大借鉴意义。目前学界主要对熊式一的文本翻译进行了深入研究,但忽视了熊式一改编的话剧《王宝川》与原有的京剧版本相比,不论从形式上还是内容上都产生了巨大差异。话剧版本有效地进行了跨文化传播改编,这为目前跨文化改编戏剧作品提供了宝贵经验。
期刊
半球谐振陀螺(Hemispherical Resonator Gyroscope,HRG)是一种高精度的哥氏振动陀螺,是21世纪最理想的惯性传感器之一。由于HRG具有长寿命、高精度、高可靠性、可小型化、低功耗、轻质量、组成结构简单以及能够适应各类空间物理环境等优点,已在航天、航空、航海以及陆地等各个领域的惯性导航系统中得到了应用。因此,为了进一步提高力反馈HRG的精度和性能,研究HRG的误差机理、
学位
新一代信息技术与互联网的飞速发展,使各应用领域的服务业务不断跨网跨域跨界交叉融合,进而形成了复杂的大服务生态系统。随着人工智能、认知计算与深度学习技术的迅速发展与应用,服务向智能服务发展。智能服务的核心是自动辨识顾客显性和隐性需求,并主动、高效、安全地提供满足顾客需求的服务。在大服务生态与智能服务场景下,为了实现随时随地获取用户需求并交付服务,软服务机器人的研究逐步引起研究者的关注。准确、完整的获
学位