基于不确定性探索的模型化强化学习算法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:mysnake
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习以其优秀的序列决策能力,吸引了众多研究人员的关注。近年来,结合了深度学习技术的深度强化学习在众多领域都取得了突破性的进展。然而,深度强化学习算法常常因为采样复杂度过高的问题,无法广泛应用在现实环境的任务中。模型化强化学习通过构建环境模型,能提高样本利用率,有效降低采样复杂度。但是构建环境模型存在的误差会影响到策略的优化,最终影响算法性能。基于不确定性探索的方法利用环境的不确定性信息指导策略探索,既可以降低采样复杂度,又能避免陷入局部最优解。然而,现有此类方法主要集中在离散动作空间的任务中,无法直接应用于连续动作空间的任务。针对连续动作空间的任务,本文基于环境模型,设计了一种基于不确定性探索的模型化强化学习算法,主要研究内容如下:为了避免环境模型的误差影响策略的优化,本文提出一种新颖的模型化策略优化算法。在此算法中,环境模型不直接参与策略优化过程,减小了环境模型的误差对策略带来的影响。具体而言,该算法将不确定性量化表示为状态和动作空间上的函数,利用环境模型和价值函数计算不确定性函数指导探索,并提出了三种不确定性建模方法。第一种方法基于环境模型预测分布的代表值差异建模。第二种方法利用环境模型预测的分布差异建模。第三种方法利用集成价值函数的预测差异建模。因为连续动作空间无法枚举所有动作的不确定性,基于不确定性探索的方法难以直接应用到连续动作空间的任务中。针对该问题,本文提出一种在连续动作空间构建探索策略的方法。因为交互过程中考虑价值函数信息和不确定性信息能更有效地探索,本文算法基于最大熵目标框架下优化的目标策略,利用不确定性函数和二次采样法构造探索策略,有效利用了价值函数信息和不确定性信息。为了验证本文工作的有效性,本文在Open AI Gym框架的模拟环境中进行实验验证。实验结果表明,本文算法能有效的利用不确定性进行探索,相比于当前主流算法,既降低了采样复杂度,又提高了算法最终性能。
其他文献
CCAR33部第21条中明确规定:发动机的设计与构造必须在飞机预定工作条件下提供必要的冷却。气膜冷却在涡轮叶片冷却中起到了非常重要的作用。但是在涡轮设计过程中,为保证航空发动机的安全性和经济性,即在保证冷却效果的前提下将掺混损失降低至最小,快速准确地预估掺混损失成为了一个重要的课题。本文采用数值模拟的方法,围绕叶栅环境下冷气射流与主流掺混过程中对流场与掺混损失的影响这一问题,对相关内容展开系统的研
学位
组合优化是最优化中与算法理论、运筹学相关的一个分支,在人工智能、软件工程、理论计算机科学等领域都有重要的应用。在结构化组合优化问题中,背景数据不是由单一的数据类型构成,而是由存在相互依赖关系的多个数据模块组成。不同问题样例的背景数据维度差异较大,难以用固定规模的机器学习模型处理。尽管已有研究人员尝试借助机器学习方法解析组合优化问题信息模块间的相互依赖关系,但现有的基于学习的组合优化算法仍然缺乏合适
学位
问题生成是自然语言处理的一个热门研究话题,有着丰富的应用场景,可以促进教育、对话系统、阅读理解等领域的研究与发展。最近几年,问题生成领域快速发展,研究学者提出许多方法来生成各式各样的问题。然而,在视觉问题生成领域,目前大部分研究仅仅基于图像来生成问题,而忽略了问题的难度。问题的难度在评估生成问题的质量中扮演着十分重要的角色。为了吸引用户,一个优秀的自动问题生成器应根据用户的能力和经验生成不同难度的
学位
随着信息技术与通讯技术的蓬勃发展,视频作为一种新兴的信息载体越来越受到人民群众的重视。由于成像设备与运输条件的不足,显示端的视频往往存在着分辨率低、质量差的缺陷。因此,能从低分辨率视频序列帧中恢复高分辨率视频帧的视频超分辨率(Video Super Resolution)成为了近几年的一个蓬勃发展的研究主题。而从视频超分辨率的普遍的两种不同评价指标(即重建精度和视觉感知)的角度出发,视频超分辨率可
学位
现如今,在这个集体安全意识觉醒的社会中,针对人员个体的视频监控系统拥有庞大的需求量。随着智能新科技的蓬勃发展,人工智能因其高效的设计方式、灵活的运用手段等优势,使得广大研究人员集中精力探索其中的奥秘。作为人工智能领域的一个重要分支,计算机视觉被广泛应用于智能安防监控场景中。在大型公众场所的安防监控系统中,会出现重点行人隐匿在人群中或是消失在监控画面中的情况,此时通过肉眼往往难以快速准确的在海量视频
学位
近年来,我国民用机场各类突发事件频发,机场应急管理人员作为应急救援的主导核心,其胜任力会对应急救援的成效产生重要影响。为全面提升机场应急救援效率及管理能力,必须对机场应急管理人员胜任力评价模型进行系统的研究。首先,通过对机场应急管理人员的概念和工作概述、胜任力内涵及特征模型的理论研究,对本文所研究的民用机场应急管理人员胜任力的内涵进行界定。其次,运用文本分析、问卷调查等方法,基于胜任力理论和特定的
学位
广域信息管理系统(System Wide Information Management,SWIM)作为航空信息共享平台,采用面向服务的结构实现空中交通管理(Air Traffic Management,ATM)业务数据的传输和共享。为了保护SWIM共享数据的安全和隐私,本文研究了一种基于区块链的SWIM共享数据跨域认证方法。主要研究内容包括:第一,从功能角度介绍了SWIM系统的概念架构,并逐层研究
学位
近年来,作为我国货运领域的重点发展对象,冷链物流行业发展势头强劲,在我国建设社会主义现代化的伟大征程中做出了杰出贡献。为了规避单一运输方式的缺陷,最大限度的提高运输效率,当前的货物运输通常使用两种及以上运输方式进行结合运输。随着航空运输在经济社会发展中的地位越来越重要,冷链货物空陆联运成为冷链运输的主要方式之一。多式联运作为不同运输方式相结合的运输系统,在实际工作中因操作、管理等方面存在差异而极易
学位
飞行员作为民航事故中危险的直接面临者,其能力水平将直接影响飞行安全。因此,构建可靠的飞行员能力测评方法,在保障飞行安全的过程中起到至关重要的作用。飞行员在驾驶过程中的操作水平和安全绩效受多种能力影响,已有研究证实,在由人为失误导致的飞行事故(征候)中,绝大多数涉及空间感知、信息处理、合作交流等因素。故本研究聚焦于非技术性能力维度,探究与飞行员能力水平相关的测评指标及方法,并以此为基础开发飞行员能力
学位
本文通过对锂离子电池热失控过程的产热情况进行建模仿真,定量分析了热失控过程中锂电池自身产热和热解气体燃烧对锂电池热失控传递的影响,为锂离子电池航空运输安全性分析提供理论基础。以100%荷电状态的18650型锂离子电池为研究对象,首先基于火焰高度估算热解气体燃烧热释放速率,建立了受限空间内锂离子电池热解气体燃烧的产热模型,模拟受限空间内热解气体燃烧导致的环境温度变化并进行验证。其次以阿伦尼乌斯公式为
学位