多种游戏场景下智能体深度强化学习方法研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:liuking
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度强化学习(Deep Reinforcement Learning)理论的提出,使人工智能得到更为实质的发展,人工智能向着智能化迈出了巨大一步。自从深度学习方法逐渐成熟以来,以DeepMind为核心的研究团队提出了DQN(Deep Q-Network),Double-DQN(Double Deep Q-Network),A3C(Asynchronous Advantage Actor-Critic)等经典的深度强化学习基本框架和核心算法。这些算法在2D以及3D游戏场景下取得了超越人类玩家水平的成绩。但是,这些算法往往存在复杂度较高,内存,GPU和CPU等硬件资源消耗大的共性问题。DQN系列算法依赖大容量的经验池,采用经验回放技术有效的缓解了训练样本间时序上的相关性问题,但是这些算法对GPU依赖性强,内存和CPU消耗巨大。A3C算法不依赖大容量的经验池,有效的利用了CPU的多核机制。A3C算法框架下,每个智能体都维护一套与全局神经网络完全一样的超参数,训练过程中,各智能体与全局神经网络之间存在着频繁的超参数梯度的传递和超参数的拷贝,这使得A3C比较严重的依赖内存和CPU。针对深度强化学习模型复杂度高,CPU和内存消耗严重,GPU依赖性强等方面的共性问题,本文展开了多种游戏场景下智能体深度强化学习方法研究。具体研究内容包含如下两个方面:(1)提出了一种基于A3C的全局小批量N步A3C深度强化学习方法。考虑到A3C模型复杂度高,CPU以及内存消耗大,智能体与全局神经网络间频繁的超参数拷贝和梯度传递等问题,提出了全局小批量N步A3C(Global Mini Batch N-step A3C,GMBN-A3C)深度强化学习模型。该模型只拥有一套全局的超参数,各智能体与环境异步交互分别收集N-Step交互结果作为整体存放于超小容量的全局经验池。其次,该模型训练过程中,从全局经验池随机抽取小批量N-step序列样本,统一计算梯度,更新网络的超参数。在多种游戏场景下的实验结果表明,情节最大交互次数和智能体个数对GMBN-A3C的整体性能影响较大,GMBN-A3C对CPU和内存的消耗明显低于A3C,Double-DQN以及DQN,并且算法的性能达到了A3C的最好成绩。(2)提出了多经验池局部状态并行Q网络深度强化学习方法。A3C以及DQN系列算法都是以整个游戏界面作为原始输入,模型参数复杂度高。DQN系列算法学习的是游戏界面的整体信息,但是游戏界面的不同区域对状态值的贡献不一样,有的区域对状态值的预测具有决定意义。基于此,提出了多经验池局部状态并行Q网络(Multi-Experience Pool Local State Parallel Q-Network,MEPLSPQ-Network)深度强化学习模型。该模型包含多个小容量经验池,多经验池进一步打乱了时序上相关的样本;改进DQN基本网络结构为并行结构,即多Q网络并行。游戏界面被分割成多个不重叠区域,分别作为分支Q网络的输入,每个分支Q网络分别学习游戏界面的固定区域,最后汇总各分支Q网络的学习结果。多种游戏场景下的实验结果表明,并行Q网络的分支个数对该模型的性能影响较大,MPLSPQ-Network能有效的学习游戏界面不同部分的特征,整体性能优于DQN,并且训练过程更加平稳,超参数收敛速度更快。
其他文献
随着全球经济的发展和社会的进步,世界发达国家已经步入“后工业化社会”。全球经济由“工业型经济”转化为“服务型经济”。服务业的发展程度在某些方面就直接表明了一个国
H.264/AVC标准具有抗误码能力良好、编码效率高等优点。但由于H.264/AVC的优良特性是以巨大运算量为代价,从而限制了实际应用。帧内预测是H.264/AVC的关键技术之一,通过全搜
燃气设施及其附属管线是城市地下管线的重要组成部分,是城镇公用事业的重要基础设施之一,与经济社会发展和人民生活息息相关,被称为城市生命线。城镇燃气对优化能源结构、改
根据战场实际情况将部队移动模式分为短距移动模式、长距移动模式和混合移动模式,其中长距移动模式采用Levy飞行移动模式,对各种移动模式分别建模分析;采用随机点阵模拟的方
甘肃阿克塞县哈尔腾国际狩猎场野生动物资源丰富,主要狩猎动物盘羊和岩羊。通过狩猎,推动了阿克塞县野生动物保护事业的发展。目前,猎场存在草场超载、放牧管理不合理、狩猎
心搏骤停救治方法历来受到医学界的关注与重视,2000年心肺复苏急救国际指南简称“指南”采用循证医学标准,鉴别、评估等方法来制定指南,这是有其先进性、科学性和实用性,值得
目的利用反相液相色谱法比较克拉维酸/阿莫西林分散片与克拉维酸/阿莫西林普通片安奇的人体生物利用度.方法 18名男性健康志愿受试者采用两周期随机交叉试验,分别口服克拉维
<正>气管软化是由于纵行弹性纤维萎缩、减少或气道软骨完整性破坏导致气道坍塌狭窄的疾病。根据软化部位不同,如果软化部位发生在气管,称之为气管软化(tracheomalacia,TM);若
云南泸沽湖畔的摩梭人,在格姆女神山下,依着他们自己的习俗而生活,是现今依然还保留母系氏族的族群,他们特有的走婚仪式,神秘而吸引人。当地保留着的母系社会的样子,至今依然
背景:自2000年埃德蒙顿方案提出以来,胰岛移植已取得了巨大成功,由于肝脏是具有双重血供并参与血糖调节的重要器官,临床上90%的胰岛移植是将胰岛经门静脉途径注入肝内。然而,