论文部分内容阅读
随着几年前DeepMind开发的人工智能围棋程序的爆炸新闻,以及后续的AlphaZero在日本将棋上的大放异彩,还有后来OpenAI在电子竞技游戏Dota2上取得的惊人成绩,相信大家对于强化学习已经有了一定的了解。传统的强化学习算法虽然在一些简单的环境中可以很好的收敛,但是由于无法面对复杂的环境以及无法处理来自环境的直接感官数据,所以应用范围一直很受限制。而随着深度学习算法的大力发展,人们看到了深度学习算法的优势所在,于是一种新的趋势就是将深度神经网络技术与强化学习算法相结合,并且相互结合之后的深度强化学习算法,正在逐渐成为强化学习领域非常有意义的研究方向。然而在强化学习面对的实际问题中,稀疏奖励的问题一直是亟待解决的难题之一,即使是深度强化学习算法也无法很好的在奖励稀疏的环境中学习。人们不停的探索,通过人为设计奖励,课程学习,好奇心机制,分层强化学习等不同的方法去改善模型,希望能在稀疏奖励环境中更好的训练。但是效果上并不十分理想,存在很多局限性。本文是基于DQN算法中的经验回放技术,通过改进经验池中状态存储的规则以及目标的设定,并且通过A3C算法提供的并行思想,设计并行化框架,从而使深度强化学习算法能够在奖励稀疏的环境中更好的训练。具体的算法设计是,首先对实验环境进行预处理,方便网络的训练并且减少计算量,提升效率。然后对基于策略梯度的DDPG算法进行改进,优化经验回放技术。接着是基于A3C算法原理,设计一个并行化框架,为了更好的解决训练样本之间相关性强的问题,从而使得算法中网络的训练效率得到提升。最后进行实验,对比分析,验证结果。通过对经验池的改进以及并行化的处理,本文的深度强化学习算法无论是在可行性还是稳定性上都表现良好。并且在本文实验的ALE游戏平台环境以及自制的简易环境中,算法都有着不错的表现,无论是从训练效率还是最终表现上,都超越了与之对比的DDPG算法与A3C算法,效果更加显著。