【摘 要】
:
深度强化学习算法研究是近年来机器学习领域的一个研究热点。经验重放机制是深度强化学习算法中的一项重要技术,如何提高样本利用率并解决经验重放的固有缺陷是深度强化学习
论文部分内容阅读
深度强化学习算法研究是近年来机器学习领域的一个研究热点。经验重放机制是深度强化学习算法中的一项重要技术,如何提高样本利用率并解决经验重放的固有缺陷是深度强化学习领域的热点问题之一。传统经验重放机制使用等概率抽样的方式,一定程度上降低了重要样本的采样率,智能体的性能并不令人满意。本文着眼于大规模样本空间下样本的使用效率,针对经验重放机制的不足,提出一系列改进的基于经验重放的深度强化学习算法,主要研究内容包括以下三部分:(1)提出一种线性动态跳帧方法,每个动作的跳帧率不是固定的,而是随着网络输出Q值大小线性增长。这使得每个动作的跳帧率由智能体根据当前状态和动作的重要程度来确定,使跳帧率成为一个可根据动作值动态学习的参数。此外,从经验池中抽样以训练网络时,将时间差分误差和跳帧率以权重方式组合作为评价样本优先级标准。基于上述改进,本文提出基于线性动态跳帧和改进优先级经验重放的深度双Q网络算法——LDF-IPER-DDQN,并在一系列Atari 2600游戏中验证算法的性能进而说明该算法的有效性。(2)提出一种基于平均值的异步优势行动者评论家算法——Averaged-A3C。为了降低存储和节约资源开销,该算法采用异步更新来训练网络,解决了经验重放机制的缺陷并且能够使用同策略的强化学习方法。该算法使用动作的优势函数更新策略和值函数,使用平均值的思想大大减少优势函数计算的方差。通过在Atari 2600和MuJoCo环境下的一些游戏来评估该算法的性能。实验结果表明,与原始的A3C算法相比,Averaged-A3C算法有效地提高了智能体的性能和训练过程的稳定性。(3)提出一种基于生成对抗网络的规划模型——GBPM。该模型能够充当经验重放的角色,获得更加准确的环境模型并提高经验重放的规划能力,并能够应用于基于模型和无模型的深度强化学习算法中。在训练期间,使用智能体所经历的真实转移样本来训练GBPM,并且智能体还可以利用GBPM来产生模拟经验或轨迹,用于改进学习的策略。本文将GBPM有效地集成到了一些深度强化学习方法中,例如深度Q网络、行动者评论家等算法中。在Atari 2600游戏和迷宫问题中使用GBPM模块评估了这些方法,实验证明GBPM模型能够有效提高这些算法的性能。本文分别从基于值函数、基于策略、基于模型和策略搜索的深度强化学习算法这三个方面研究如何改进现有经验重放机制的不足,算法性能得到了有效的提升。
其他文献
卤素钙钛矿材料凭借着突出的光电性能,已经吸引了人们的关注。近年来,钙钛矿太阳能电池的器件效率已经突破23%。但是,由于铅基(Pb)钙钛矿材料的稳定性与毒性问题阻碍其进入商业化发展,因此,解决钙钛矿材料的稳定性与降低Pb的毒性显得尤为重要。在本论文中,将碘化钾(KI)添加至钙钛矿前驱体中,改善薄膜形貌,提高结晶性制备出既稳定又高效的器件。借助电子扫描显微镜(SEM)、紫外可见吸收光谱(UV-vis)
随着3D传感和数字化设计技术的发展,在企业的数据库和互联网中已经存在大量的三维模型。为高效地组织和重用已有的三维模型,需要自动识别模型的类别并能在数据库中检索出相似
随着科技的进步和信息技术的快速发展,越来越多的传统企业摒弃了单一的传统零售渠道,开始在原有基础上开辟网络直销渠道来销售产品,双渠道模式已经成为普遍现象。在双渠道供
随着城市发展对城市用地量需求的不断增加,城市可供建设的用地供需量之间的矛盾也愈渐突出,作为城市中重要的开发资源,地下空间资源在城市规划发展中的效用越来越高。地下空
随着科学技术的不断进步,电机的设计与制造正向高速、高精度和高可靠性的目标发展。电机作为大部分自动化设备的动力元件或调整元件,扮演着举足轻重的角色。电机由于高温、油污、过载等恶劣的工作环境和制造与装配的误差等因素,电机的运行将伴随潜在的风险,某些重要的电气设备一旦发生故障将产生巨大的损失,危及人员的生命安全。因此,电机运行过程中的信号监测与故障诊断显得尤为重要。传统的电机故障诊断方法是建立在一些可观
为了满足各种专项需求,智能机器人首先需要完成一些基础的任务,而实现自主导航则是其中一种。通过视觉进行自主导航,可以使机器人摆脱对场景地图的依赖,更快速的进行任务部署
信息化是当今社会的时代标签。占领信息的制高点,不断提高信息的安全性以及快速交换的能力,是国家科技发展的一个重要方向。轨道角动量(OAM)作为电磁波除了幅度、相位、极化
由于具有良好的溶液加工性、量子限域效应和多激子效应,胶体硫化铅(PbS)量子点材料展现出优异的光电器件性能,受到了研究人员的广泛关注。短短10年时间,基于溶液法制成的PbS量子点单节太阳能电池的认证效率最高超过12%。基于PbS量子点的光伏器件如此迅速发展,有很大一部分来自于器件界面电荷传输层的调控。然而,和同时期的有机以及钙钛矿薄膜太阳能电池相比,可用于量子点太阳能电池的高效界面材料不管是种类还
钻孔灌注桩具有无振动、无挤土、噪音小、宜于在城市建筑密集地区使用等优点,在建筑工程领域得到较为广泛的应用。钻孔灌注桩由于桩径大入土深,成孔施工在地下、水下等环境完
压致荧光变色材料是一类新型的刺激响应“智能”材料,该材料在压力传感器、记忆器件、安全墨水和光学记录等高科技领域具有非常重要的应用价值。近来研究成果表明,刚性π-共轭交叉形荧光染料有着独特的分子结构和迷人的光学性能。因此,论文以合成D-A结构的具有AIE性能的交叉形压致荧光变色分子为出发点,制备了一系列咔唑、四苯乙烯和三苯胺修饰的以苯环为核心的交叉形固态荧光分子,并研究了它们的分子内电荷转移(ICT