【摘 要】
:
近年来,深度强化学习已经成为人工智能领域一个新的研究热点。深度强化学习在如Atari 2600游戏等高维度大状态空间任务中取得了令人瞩目的成功,但仍存在训练时间太长等问题。
【机 构】
:
苏州大学计算机科学与技术学院,软件新技术与产业化协同创新中心,吉林大学符号计算与知识工程教育部重点实验室
【基金项目】
:
国家自然科学基金项目(61272055,61303108,61373094,61472262,61502323,61502329,61772355);江苏省自然科学基金(BK2012616);江苏省高校自然科学研究项目(13KJB520020,16KJB520041);吉林大学符号计算与知识工程教育部重点实验室基金项目(93K172014K04,93K172017K18);苏州市应用基础研究计
论文部分内容阅读
近年来,深度强化学习已经成为人工智能领域一个新的研究热点。深度强化学习在如Atari 2600游戏等高维度大状态空间任务中取得了令人瞩目的成功,但仍存在训练时间太长等问题。虽然异步深度强化学习通过利用多线程技术大幅度减少了深度强化学习模型所需的训练时间,但是,基于循环神经网络的异步深度强化学习算法依然需要大量训练时间,原因在于具有记忆能力的循环神经网络无法利用并行化计算加速模型训练过程。为了加速异步深度强化学习模型的训练过程,并且使得网络模型具有记忆能力,本文提出了一种基于多重门限机制的异步优势行动者-评论家算法。该模型主要有三个特点:一是通过使用多重门限机制使前馈神经网络具有记忆能力,使Agent能够通过记忆不同时间步的状态信息做出更优的决策;二是通过利用并行计算进一步加速Agent的训练过程,减少模型所需的训练时间;三是通过采用一种新的跳跃连接方式实现数据向更深的网络层传递,增强模型识别状态特征的能力,从而提升深度强化学习算法的稳定性和学习效果。本文通过Atari2600游戏平台上的部分战略型游戏以及稀疏奖赏环境型游戏来评估新模型的性能。实验结果表明,与传统的异步深度强化学习算法相比,新模型能够以较少的时间代价来获得更优的学习效果。
其他文献
目的分析中枢神经系统感染的脑地形图(BEAM)、CT和磁共振成像(MRI)的诊断价值和临床意义,为临床诊断提供参考依据。方法选择2011年2月-2015年2月中枢神经系统感染患者103例,
<正> 《左传》昭公二十九年(公元五一三年):“冬,晋赵鞅、荀寅帅师城汝滨,遂赋晋国一鼓铁,以铸刑鼎,著范宣子所为刑书焉”。这条史料与前此二十三年(公元前五三六年)郑国子产
文章首先基于我国旅游市场的发展及开放现状,分析了我国旅游市场在应对突发事件时的不足,随后从预警、信息、紧急处置和善后协调四个方面探讨了我国旅游业突发事件应对机制的
在我国企业全面参与国际竞争的今天,一方面是缺乏开拓国际市场的有效资本,另一方面是自身拥有的资本价值功能开发培育滞后,成为许多企业面临的发展困惑。文章以此为背景,进行
目的研究比较锁骨骨折应用微创经皮锁定钢板与重建钢板的治疗效果与可靠性,为临床治疗提供科学依据。方法 68例锁骨骨折患者,随机分为对照组和实验组,各34例。对照组患者使用
<正> 唐代是我国封建社会繁荣昌盛的时代,经济、文化、宗教都有较大的发展,饮茶之风,也大为兴盛,这个社会是培育茶会茶宴的温床。自李唐帝国的建立到“安史”之乱以前,社会经
目的观察耳穴压豆法对心力衰竭患者合并便秘的疗效。方法选取我院收治的50例慢性心衰合并便秘的患者随机分为对照组和观察组,对照组予以常规治疗及护理,观察组在对照组的基础
目的了解结直肠癌患者术后生活质量,并探讨其影响因素,为结直肠癌患者的临床护理及健康教育提供理论依据。方法采用大肠癌患者生活质量测定量表和医院综合焦虑抑郁量表对105
文章对智力资本从1997-2005年的文献做了综述,分别从智力资本的内涵、构成、评估、计量以及智力资本的运营过程的管理、智力资本的评价管理、智力资本对企业价值的贡献三个主
目的比较替考拉宁在合并与未合并粒细胞缺乏血液病感染患者的临床疗效,进一步评价其在血液病患者中的疗效及安全性,为临床治疗提供参考依据。方法收集2012年8月-2014年8月医