论文部分内容阅读
深度强化学习(Deep Reinforcement Learning)理论的提出,使人工智能得到更为实质的发展,人工智能向着智能化迈出了巨大一步。自从深度学习方法逐渐成熟以来,以DeepMind为核心的研究团队提出了DQN(Deep Q-Network),Double-DQN(Double Deep Q-Network),A3C(Asynchronous Advantage Actor-Critic)等经典的深度强化学习基本框架和核心算法。这些算法在2D以及3D游戏场景下取得了超越人类玩家水平的成绩。但是,这些算法往往存在复杂度较高,内存,GPU和CPU等硬件资源消耗大的共性问题。DQN系列算法依赖大容量的经验池,采用经验回放技术有效的缓解了训练样本间时序上的相关性问题,但是这些算法对GPU依赖性强,内存和CPU消耗巨大。A3C算法不依赖大容量的经验池,有效的利用了CPU的多核机制。A3C算法框架下,每个智能体都维护一套与全局神经网络完全一样的超参数,训练过程中,各智能体与全局神经网络之间存在着频繁的超参数梯度的传递和超参数的拷贝,这使得A3C比较严重的依赖内存和CPU。针对深度强化学习模型复杂度高,CPU和内存消耗严重,GPU依赖性强等方面的共性问题,本文展开了多种游戏场景下智能体深度强化学习方法研究。具体研究内容包含如下两个方面:(1)提出了一种基于A3C的全局小批量N步A3C深度强化学习方法。考虑到A3C模型复杂度高,CPU以及内存消耗大,智能体与全局神经网络间频繁的超参数拷贝和梯度传递等问题,提出了全局小批量N步A3C(Global Mini Batch N-step A3C,GMBN-A3C)深度强化学习模型。该模型只拥有一套全局的超参数,各智能体与环境异步交互分别收集N-Step交互结果作为整体存放于超小容量的全局经验池。其次,该模型训练过程中,从全局经验池随机抽取小批量N-step序列样本,统一计算梯度,更新网络的超参数。在多种游戏场景下的实验结果表明,情节最大交互次数和智能体个数对GMBN-A3C的整体性能影响较大,GMBN-A3C对CPU和内存的消耗明显低于A3C,Double-DQN以及DQN,并且算法的性能达到了A3C的最好成绩。(2)提出了多经验池局部状态并行Q网络深度强化学习方法。A3C以及DQN系列算法都是以整个游戏界面作为原始输入,模型参数复杂度高。DQN系列算法学习的是游戏界面的整体信息,但是游戏界面的不同区域对状态值的贡献不一样,有的区域对状态值的预测具有决定意义。基于此,提出了多经验池局部状态并行Q网络(Multi-Experience Pool Local State Parallel Q-Network,MEPLSPQ-Network)深度强化学习模型。该模型包含多个小容量经验池,多经验池进一步打乱了时序上相关的样本;改进DQN基本网络结构为并行结构,即多Q网络并行。游戏界面被分割成多个不重叠区域,分别作为分支Q网络的输入,每个分支Q网络分别学习游戏界面的固定区域,最后汇总各分支Q网络的学习结果。多种游戏场景下的实验结果表明,并行Q网络的分支个数对该模型的性能影响较大,MPLSPQ-Network能有效的学习游戏界面不同部分的特征,整体性能优于DQN,并且训练过程更加平稳,超参数收敛速度更快。