基于分区缓存区重放与多线程交互的多智能体深度强化学习算法

来源 :计算机学报 | 被引量 : 0次 | 上传用户:ll730520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年,深度强化学习(Deep Reinforcement Learning,DRL)已成为人工智能领域一个新的机器学习范式与方法论,它在许多高维度大状态的复杂空间任务中能够取得显著的成功.然而,传统的深度强化学习仍然存在着学习效率低、训练时间长的问题,在多智能体的行为决策研究中难以达到理想的效果.针对这些问题,本文提出了一种基于分区缓存区重放与多线程交互的多智能体深度强化学习算法(Partitioned Buffer Replay and Multiple Process Interaction,PBR
其他文献
在当前人们生活水平不断提升、精神文化需求不断增长的环境中,新闻媒体在大众生活中的影响越来越深刻,进入“互联网+”时代后,新闻价值要素也发生了显著变化。一方面,新闻价
伴随着融媒体时代的到来,报纸与新媒体的融合已经是大势所趋,报纸转型升级的核心是顺应信息传播的趋势和受众获取信息方式的改变,将报纸内容向数字平台迁移,进而获得更大规模
近几年来,信息成为当前社会发展的重要资源。伴随着信息技术的飞速发展,信息时代全面到来,给传统媒体带来巨大的冲击。此环境下,为保证新媒体技术创新共荣,中国长沙顺利举办2
基于2014年中国家庭追踪调查的数据,针对信贷约束影响家庭参与风险资产的效果及作用机制进行实证检验。结果表明:信贷约束与家庭参与风险资产的广度和深度之间存在显著的负相
全媒体时代的到来,促使网络文化传播环境发生了深刻的变化,在此背景下,网络文化传播主体需要及时调整自身传播策略,抓住全媒体时代为网络文化传播工作带来的机遇。本文在对网
审读工程技术类论文的数据问题关系到论文研究的结果和结论,值得编校人员研究。文章以正式录用的稿件为研究对象,从论文数据的重要性和存在问题入手,结合实例,按照编辑学方法
电视文艺作为社会精神娱乐活动的重要组成部分,由于其观赏性较强、影响范围广,目前已经成为我国群众喜闻乐见的一种文艺形式。而电视晚会作为电视文艺的重要构成部分,不仅仅
基于宏观经济层面的地方政府债务数据与微观层面的企业数据系统地探索地方政府债务规模对企业融资结构的影响。实证结果表明,地方政府债务显著挤出了企业债务融资,且挤出效应
摘要:基于中介效应模型和2007~2016年中国省际面板数据,构建异质性环境规制、技术创新与工业绿色化的作用机理理论分析框架,并通过构建异质性环境规制指标体系和工业绿色化指标体系将异质性环境规制与技术创新驱动工业绿色化的作用机理进行实证检验。研究发现:行政型环境规制对工业绿色化起抑制作用,不存在技术创新中介效应;市场型环境规制对工业绿色化的影响存在部分中介效应,可通过技术创新“挤出效应”抑制工业绿
融合文化是媒介融合进程中一个需要正视的重要问题。本文主要思考在媒介融合的过程中如何促进融合文化的正向健康发展,对融合文化的概念和特征进行了梳理和提炼,指出融合文化