面向连续动作空间的深度强化学习算法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:longfei256
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,深度强化学习算法在很多强化学习任务上取得了令人瞩目的表现。深度强化学习算法集合了深度学习的表征能力和强化学习的自主决策能力,被认为是通向通用人工智能的必经之路。连续动作空间任务是深度强化学习研究的重要方向,般采用确定性行动者-评论家架构来解决。但是确定性行动者-评论家架构存在探索方式不当,学习不稳定,以及最大化偏差等问题。本文针对这几方面问题,提出以下几点研究内容:(1)深度确定性行动者-评论家算法在某些连续任务上表现得不稳定,且盲目的探索方式使智能体不能获得好的经验来支持其学习。针对这些问题,本文提出了基于经验指导的深度确定性多行动者-评论家算法。新算法不使用外部噪声源,而是应用基于优秀经验的机制来指导智能体的学习和行动,让智能体更加倾向于选择具有高回报的轨迹。此外算法还使用了多行动者-评论家机制来减轻单个网络学习的不稳定性。实验表明新算法在一些连续控制任务中可以获得更好的效果。(2)针对深度确定性行动者-评论家算法不稳定、盲目探索的问题,提出了结合生成对抗网络的自我指导的深度确定性多行动者-评论家算法。该算法不仅使用多行动者-评论家结构缓解单个网络学习的不稳定性。同时自我指导机制将生成对抗网络中的生成器作为指导网络来指导智能体学习,并将判别器构成了主观奖赏使用,从而引导智能体选择具有高回报的轨迹。最终在一系列复杂的连续任务上进行验证说明了模型的有效性。(3)由于使用的是确定性策略,确定性行动者-评论家算法中会出现最大化偏差现象。为了减少最大化偏差对算法性能的影响提出了双延迟的基于经验指导的深度确定性多行动者-评论家算法。算法使用了截断双评论家机制和延迟更新策略、目标网络机制来解决最大化偏差问题。实验结果表明新算法在多个任务上的性能表现更佳。
其他文献
随着新技术革命的到来,世界开始进入信息智能化时代,物联网、人工智能、5G等新一代信息技术迎来前所未有的大发展。传感器作为新一代信息技术的感知基础和数据来源,对于当今
随着我国能源结构转型,生物质资源所占地位日趋重要。生物质致密成型设备也日趋完善。但对于成型机设备,目前生产集成化程度低,通常采用生产链方式在进行。过于复杂的程序致
金刚石锯片的缺陷检测是产品品质安全的重要保证,但金刚石颗粒噪声为锯片裂纹检测提高了难度。针对目前常见的的目标检测方法来说,想达到实时快速准确的检测,其效果并不是很
极端低温灾害经常使中国北方遭受严重经济损失,对人们生活造成不便。为此需要深入了解其变化规律、影响过程和物理机制,为极端气候预测提供科学支撑。使用中国756个站逐日日最高气温资料,对中国北方冬季冷日(WECD winter extreme cold day)频次进行了研究,结论如下,中国北方WECD频次异常第一模态为全区一致型,贡献率为39%,第二模态为东西反向型,贡献率为17%。在冬季,当AO负位
牵引齿轮系统是机车传动系统的主要组成部分,其“健康状况”是保证行车安全的重要因素,而裂纹故障则是一种较为常见的齿轮早期故障。齿轮裂纹故障的有效识别对于避免故障进一步恶化甚至导致断齿等严重问题的发生具有一定的实际意义和工程应用价值,也可满足牵引齿轮视情维修的需要。鉴于目前主流齿轮类故障检测方法所存在的局限性(即仅利用系统响应作为研究对象,很少考虑激励对于故障特征提取的作用),本文从系统激励与响应两方
当船舶燃气轮机发生某气路故障时,可能引起设备的热效率的小幅度下降,而设备的?效率会下降很多。为了解决常规故障诊断方法低工况气路故障辨识困难的问题,本文开展了基于热力
基于医学图像的计算机辅助诊断通常被看作医生的诊断决策参考和“第二意见”,它能减轻医生的工作负担同时提高医疗诊断精度。医学领域专家标注数据非常昂贵,有些病例稀少,获
近年来,随着“中国制造2025”战略的实施,企业为满足发展需求引入了大量的智能生产线设备。由于生产线设备的无故障安全运行关系到企业的经济效益,所以生产线设备的无故障运
栓皮栋(Quercus variab ilis)在我国分布非常广泛,具有许多优良特性,是林业生产上重要的树种,有较高的经济和生态价值,栓皮栎种子既是维持生态系统食物供应的重要材料,又是栓
近年来,随着用户对电视高清化、交互化需求的不断增长以及“三网融合”的不断深入,逐步实现了有线与电信双向融合,电信行业和互联网行业在广电领域不断渗透。特别是北京歌华