基于强化学习的稀疏奖励问题研究

来源 :中国地质大学(北京) | 被引量 : 0次 | 上传用户:lalalalala520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着几年前DeepMind开发的人工智能围棋程序的爆炸新闻,以及后续的AlphaZero在日本将棋上的大放异彩,还有后来OpenAI在电子竞技游戏Dota2上取得的惊人成绩,相信大家对于强化学习已经有了一定的了解。传统的强化学习算法虽然在一些简单的环境中可以很好的收敛,但是由于无法面对复杂的环境以及无法处理来自环境的直接感官数据,所以应用范围一直很受限制。而随着深度学习算法的大力发展,人们看到了深度学习算法的优势所在,于是一种新的趋势就是将深度神经网络技术与强化学习算法相结合,并且相互结合之后的深度强化学习算法,正在逐渐成为强化学习领域非常有意义的研究方向。然而在强化学习面对的实际问题中,稀疏奖励的问题一直是亟待解决的难题之一,即使是深度强化学习算法也无法很好的在奖励稀疏的环境中学习。人们不停的探索,通过人为设计奖励,课程学习,好奇心机制,分层强化学习等不同的方法去改善模型,希望能在稀疏奖励环境中更好的训练。但是效果上并不十分理想,存在很多局限性。本文是基于DQN算法中的经验回放技术,通过改进经验池中状态存储的规则以及目标的设定,并且通过A3C算法提供的并行思想,设计并行化框架,从而使深度强化学习算法能够在奖励稀疏的环境中更好的训练。具体的算法设计是,首先对实验环境进行预处理,方便网络的训练并且减少计算量,提升效率。然后对基于策略梯度的DDPG算法进行改进,优化经验回放技术。接着是基于A3C算法原理,设计一个并行化框架,为了更好的解决训练样本之间相关性强的问题,从而使得算法中网络的训练效率得到提升。最后进行实验,对比分析,验证结果。通过对经验池的改进以及并行化的处理,本文的深度强化学习算法无论是在可行性还是稳定性上都表现良好。并且在本文实验的ALE游戏平台环境以及自制的简易环境中,算法都有着不错的表现,无论是从训练效率还是最终表现上,都超越了与之对比的DDPG算法与A3C算法,效果更加显著。
其他文献
结合前人研究成果,针对球缺罩成形过程不同于锥角罩的情况,分析了球缺罩爆炸加速和各微元相互连续挤压计算模型,提出了球缺罩成型射流和EFP参数的计算公式。并与文献实验结果进
随着我国畜禽养殖业迅速发展,规模化养殖越来越普及,以及农村经济的快速发展,导致我国每年都会有大量畜禽粪便产生。据统计,2015年我国畜禽粪便产量为29.32亿吨,预测在2020年
外来入侵物种(invasive alien species,IAS)严重危害了人类的身体健康、生物种类的多样性以及自然生态系统。外来物种入侵已成为全世界广泛关注和研究的热点问题,在国家环保
动力学性能是衡量挖掘机平台及三角架的重要指标,但由于其在工作时会受到发电机、电动机等的外部激励,所以模态分析的结果对研究其动力学特性提供了重要参考依据,并为后续的
近年来,我国的农业发展整体上取得了一定的进步,但在我国农业经济管理水平等方面还有待提升。为此,本文就当今时代背景下,农业现代化建设的经济管理的现状进行简要介绍,并通
电力作为当前社会的主要能源,对社会的发展与进步起着至关重要的作用,一个地区电力的发展很大程度取决于当地的电力消费量,对于西北欠发达的乡村地区,其经济的发展水平与电力
目的:在通督调神理论指导下进行选穴,观察通督调神针刺法联合艾司唑仑治疗失眠症的临床疗效,并观察通督调神针刺法能否减少艾司唑仑产生的不良反应。方法:本研究共纳入64名失