基于连续控制任务的确定性策略梯度算法研究

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户：owg

【摘要】

：

【作者】

：

王振宇

【机构】

：

哈尔滨理工大学

【出处】

：

哈尔滨理工大学

【发表日期】

：

2021年01期

【关键词】

：

深度强化学习连续控制任务行动者-评论家平滑确定性策略梯度

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

无模型深度强化学习算法作为强化学习中的一种主要算法,其最大特点是在不对环境建模的情况下,通过与环境不断交互自主的进行学习。强化学习虽然已经在一系列具有挑战性的决策和控制任务上得到了长足的发展,但是连续控制任务下的深度强化学习的研究还是处于初级阶段,这些算法仍存在着一些问题和挑战,比如维度爆炸、随机环境下泛化能力差、样本数据使用效率低、脆弱的收敛特性和极易陷入局部最优策略。这些问题导致多数模型需要细致的超参数调优,严重限制了深度强化学习方法在复杂现实领域的适用性。在连续动作空间的行动者（Actor）-评论家（Critic）深度强化学习算法中,最先进的双延迟深度确定性策略梯度（TD3）算法缓解了深度确定性策略梯度（DDPG）算法中的过高估计问题,但它可能会导致某些动作严重被低估,TD3维护的这个下界远非真实的Q函数,从而会干扰行动者向最优动作收敛,多次选择次优动作导致行动者难以探索上界,同时也存在样本利用效率过低的问题。本文针对这些问题,对现有的确定性策略梯度算法进行改进,并提出了新的算法。本文的主要工作和研究成果包含以下几个方面:首先,对于连续控制问题,提出了一种对评论家网络平滑的方法。由于连续控制的动作空间是无限大的,我们每次却只能执行一个确定的动作,每次只根据这一个动作和回报对网络进行梯度更新,导致评论家网络产生很多的极点。针对此问题,本文认为理想情况下评论家函数应该是平滑连续的,提出了一种对评论家网络的目标函数平滑的方法,降低了行动者网络的收敛难度,提高了样本利用效率。为了验证新方法的效果,我们通过改进DPG、DDPG算法在Open AI开源的简单双足机器人环境下进行了实验,实验结果表明平滑后的算法收敛速度得到了提升。其次,针对值函数影响最优策略上限的问题,本文通过三种不同的思想提出三种平滑函数,1.两极分化思想:我们认为在行动者-评论家框架中,评论家对动作之间折扣累计估值的排序与真实的折扣累计值的排序一致性很重要,通过把动作估值差距拉大,使误差不足以影响关键动作之间的排序。2.保守思想:我们认为提升某一动作范围内的估值下限会使模型更加健壮。3.熵值思想:从估值准确性来看,估值高的动作熵值较低,估值低的动作熵值较高,所以低熵动作置信度更高,占的权重也高。在本文中,我们将三种不同的平滑方式应用到DDPG和TD3中,分别在两种环境下进行测试,实验表明本文提出的三种平滑函数可以提升最优策略的上限,但也会增加模型收敛不稳定的概率。然后,针对模型不稳定问题,我们发现训练中的行动者稳健性与模型的收敛能力成正相关,行动者陷入局部最优和评论家网络波动过快都会影响学习效果。针对此问题,本文提出了采用双行动者-双评论家架构、延迟更新的算法,降低了行动者陷入局部最优的概率,降低了评论家网络更新速率使行动者可以得到稳定的收敛。为了验证算法的有效性,我们在Open AI开源项目gym中的困难双足机器人环境下进行了大量试验,通过单行动者-双行动者对比试验,验证了双行动者可以使模型的收敛更加健壮,明显减少模型的“雪崩”现象。最后我们将几种方法融合得到的新算法——平滑的双延迟双网络深度确定性策略梯度强化学习算法,与多个最先进的深度确定性策略梯度强化学习算法进行了对比,表明提出的新算法的部分性能优于最先进的算法。

其他文献

冬春季冷暖洋流对我国沿海低空大气的影响

冬春季期间,在我国东海和台湾省两侧,表层海水温度存在着很大的梯度。这是因为黑潮和我国东部近海区冷洋流交汇而形成的。这两股洋流长时间地作用于其上空的大气,就必然使后者也相应地产生性质上的差异。下面对此问题作一初步分析。一、冷暖洋流形成的低空等温线密集带（一）表1所示是那坝岛与闽江口历年各月平均水温与气溫差。由表1可见,从12月至次年3月,那坝岛逐月水温和气温相差达3—4℃,比闽江口大得多

期刊

基于受众满意度视角的城市体育公园使用后评价研究

近年来强调以满意度等软性指标的受众主观评价模式来解决公共服务绩效评估中存在的资源浪费、形式主义和官僚主义等顽疾,已经成为业界和学界的共识。基于此,本研究从受众满意度视角出发,以"使用后评价"为理论切入点,采用问卷调查法和观察法构建城市体育公园使用后受众满意度评价指标体系,并以沈阳奥林匹克公园为空间样本进行评价应用,在此基础上划分满意度评价结果区域,提出城市体育公园改造原则与顺序。研究结论:1)评价

期刊

城市体育公园使用后评价评价指标受众满意度改造原则改造顺序

基于CNN的单目标摔倒检测算法研究及FPGA实现

随着我国人口老龄化不断加剧,摔倒检测算法和系统的研究逐渐成为当前研究的热点之一。在摔倒检测的多种实现方式中,基于视频图像处理的摔倒检测方法以突出的优势和广泛的应用前景深受学者们青睐。但是目前对摔倒检测算法的研究大多停留在PC上的仿真阶段,只有少数学者将摔倒检测算法在嵌入式平台上实现。这部分学者在进行算法实现的研究时没有考虑人体与摄像头之间的夹角以及人体倒下后被部分遮挡的情况,致使现有摔倒检测系统使

学位

摔倒检测卷积神经网络现场可编程门阵列单目标

基于线结构光的盲道三维重建系统研究

随着科学技术的不断发展,三维重建作为一种能够通过以建模方式得到三维信息,进行显示、分析的技术应用在各个领域,如Simultaneous localization and mapping（SLAM）、医疗科学、文物维护、地球大气等领域。随着三维重建技术采用的零部件逐渐市场化和产品化之后,将三维重建技术应用于视力障碍者的出行中变为一种可能。对于视力障碍者而言,三维重建技术运用至其指引工具之上可以快速、

学位

盲道三维重建线状结构光导盲设备系统标定

《MG250/601-QWD型交流电牵引采煤机说明书》英译实践报告

学位

存在柔性设备多工序同时结束的综合调度算法研究

传统的先加工后装配作业车间调度方式,已经很难满足当今社会对个性化产品的需求。在这种背景下,产品的加工和装配一同调度的第三类产品调度模式综合调度应运而生。综合调度的研究虽然取得了丰硕的成果,但目前没有针对存在柔性设备多工序同时结束的问题进行考虑,所以本文对存在柔性设备多工序同时结束的问题进行研究。针对单车间环境存在柔性设备单组多工序同时结束的问题,提出存在柔性设备单组工序同时结束的综合调度算法。该算

学位

综合调度同时结束调度策略预选矩阵

基于多模态对抗学习的自适应时间序列异常检测算法研究

异常检测,又称为离群点检测,是找出行为与预期行为差异较大的对象的检测过程,而时间序列异常检测旨在发现对应时序特征中不符合一般规律的特异性模式,是机器学习领域重要的研究方向。然而,现有的时序异常检测方法大多为单模态学习,忽略了时序信息在多模态空间上不同特征分布的关联性和互补性,不能充分利用时序数据进行有效的模式挖掘,从而造成检测效果差等问题。基于这些传统方法的缺陷,本文提出了一种多模态自适应时间序列

学位

异常检测时间序列对抗学习多模态自适应

如何阐释历史意义——以陈尧咨与卖油翁的故事为例

历史解释有两大要义:探求因果和阐释意义。自高中历史新课标颁布以来,学界探讨历史解释素养的文章可谓是汗牛充栋,从理论与实践两个方面丰富了人们对历史解释素养的认识。美中不足的是,这些文章探讨的主要是因果关系,阐释意义的文章较为少见。这就好比鸟少一翼,车缺一轮。为此,本文拟择一案例,解剖麻雀,进而探讨阐释历史意义的策略,以求教于方家。本文选择的案例是欧阳修在《归田录》中记载的陈尧咨与卖油翁的故事:

期刊

『きのぅ何食べた？』翻译实践报告

学位

基于机器学习的AlCoCrCuFeNi系高熵合金硬度预测

近年来,高熵合金因其独有的优异性能获得了广泛关注。当前对于高熵合金的研究往往是实验合成或者复杂的理论计算,但是前者需要消耗大量的时间与材料成本,甚至对于实验设备也有较高要求,后者的计算过程耗时耗力且有一定局限性。随着人工智能与计算机技术的飞速发展,机器学习在材料研究与设计中逐渐展现出革命性的优势,获得了研究者的极大兴趣。因此,基于机器学习算法进行高熵合金成分设计以期达到高硬度具有十分重要的研究意义

学位

高熵合金特征筛选改进遗传算法硬度预测机器学习

基于连续控制任务的确定性策略梯度算法研究

与本文相关的学术论文