【摘 要】
:
近些年深度学习和强化学习的结合在许多复杂的决策任务和动态系统控制问题上都取得了重要的突破,与深度学习的结合使得强化学习可以有效的在高维空间生成决策序列,一些算法在
论文部分内容阅读
近些年深度学习和强化学习的结合在许多复杂的决策任务和动态系统控制问题上都取得了重要的突破,与深度学习的结合使得强化学习可以有效的在高维空间生成决策序列,一些算法在实际应用中甚至都取得了超越人类的表现,使得深度强化学习(DRL)研究越来越被重视。然而在现实场景下应用深度强化学习算法还存在着许多挑战,其中数据利用率和训练效率很大程度上阻碍了深度强化学习在工业界的进一步推广。强化学习不像监督学习那样有可靠的标签,其必须依赖环境中稀疏的、有噪声的以及延迟的奖励信号去学习对应的策略,这就使得算法的应用必须明确目标和设计科学的奖励函数。在本文中根据相关生物学和心理学的研究,提出了一种基于势能函数的反思奖励(introspection-reward)设计方法,并结合多智能体和多任务学习的思想形成新的训练框架。该反思奖励表示了智能体当前决策相对过去历史决策序列的好坏程度,利用历史奖励序列的二阶信息。随后使用反思智能体(introspection-agent)辅助修正主智能体(main-agent)的策略或值函数更新。本文提出的方法可以很方便的对现有基于值函数和基于策略梯度的深度强化学习算法进行扩展,进而形成新的学习方式,使得智能体充分利用奖励信息后具有人类学习中的反思特质,更好地在对应状态下区分出最优动作。我们在Atari游戏平台和Super Mario游戏模拟器中进行算法的验证,对比现有的基于值函数和基于策略梯度的深度强化学习算法。通过实验表明,在经典的Atari游戏和更具挑战的Super Mario游戏中本文的方法都有更好的表现。随后更多的实验结果也表明本文提出的方法可以有效提高智能体的学习效率和控制鲁棒性。
其他文献
作为非经营性的基础设施项目,政府与社会资本合作(Public-Private-Partnership,PPP)模式为市政道路项目的融资问题带来了解决方案。但由于政府和社会资本方对项目存在不同的
垮掉派边缘作家理查德·布劳提根(Richard Gray Brautigan,1935-1984),是二世纪六、七十年代美国杰出的诗人和小说家。与垮掉派其他小说家相比,布劳提根的女性书写显得别具一格。他是个自相矛盾的写作者,他的价值观左右摇摆,彼此相抵触。在小说作品中,布劳提根笔下的女性人物既有家庭特质,又呈现出社会性;她们既被塑造为男性凝视中的女性客体,又呈现出女性身体主权意识。布劳提根以矛盾的
近年来,网络中存在各种各样的流量,每种流量对于网络的性能都有着不同的要求,有的对时延要求很高,有的对吞吐量要求很高,甚至有的对时延和吞吐量都有着很高的要求。如何保证
土壤养分的研究一直是森林工作者以及农业研究人员工作的重中之重。该研究针对山西西部吉县蔡家川流域水土保持林区土壤有机碳和全氮含量开展空间分异规律分析。综合经典统计学数理统计、地统计学软件、空间地理信息系统软件,分别对研究区域内土壤有机碳(SOC)和全氮(TN)两种属性值进行分析并计算土壤有机碳和全氮储量。经典理论学数理统计分析结果表明,海拔、坡度对土壤有机碳和全氮含量有显著影响,呈现正相关关系;树种
传能光纤和远端模块作为高压换流站光测量系统主要的两个关键组件,由于受外界各环境因素的影响,导致二者故障率较高,从而引起整个系统运行的异常和风险。但目前在该领域内对
本文从了解MT-2型缓冲器的组成结构、作用原理、常见损伤入手,依据相关的检修标准和技术要求,叙述了MT-2型缓冲器的检修工艺过程。目的为了抛砖引玉,与行业内的专家相互切磋
在目前的科技发展浪潮中,人工智能技术的普遍应用已经成为各领域前沿技术发展的重要趋势,特别是机器人领域的发展受到极大关注。同时定位与建图(Simultaneous Localization a
伴随着互联网技术的不断升级,历史虚无主义作为意识形态领域的一大隐患开始拥有全新的表现形式:从政治层面的歪曲近代革命史、揭秘党的功勋领袖人物和否定党的历史功绩,到文
研究和弘扬孔子礼文化,不仅要正确解读其文本内容和意义,还要找到合适的方式传播给受众,以达到个体修养提升和社会关系调和的传播效果,这是传承文化的需要,也是当代文化建设
随着物联网应用的普及,各种各样的嵌入式控制系统开始进入到人类生产生活的各个方面,控制系统的定制化服务仍旧是当今嵌入式应用的主流。当用户需求改变时,控制系统开发者需