渐进式深度确定性策略梯度算法的改进与研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户：aaalxf

【摘要】

：

【作者】

：

吴光军

【机构】

：

苏州大学

【出处】

：

苏州大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近些年来,将深度学习与强化学习相结合的深度强化学习在人工智能领域取得了令人瞩目的成就。深度强化学习方法利用深度神经网络强大的表征能力的同时,也使用了强化学习算法的自主决策能力,在多个学习领域中都展现出较强的通用性并取得了不错的效果。连续控制类任务是一大类热门的研究领域,在深度强化学习算法中通常采用基于确定性策略梯度与行动者-评论家架构的深度确定性策略梯度算法。在面对大型状态空间任务时,深度确定性策略梯度算法中的单个行动者网络难以应对,以及存在探索盲目和最大化偏差等问题。本文对深度确定性策略算法进行了以下三个方面的研究。（1）深度确定性策略梯度算法中使用的单个行动者网络难以应对复杂的状态空间,使行动者网络学习会受不同状态的影响。针对该问题,提出了一种基于K-means聚类的渐进式多行动者深度确定性策略梯度算法。该算法在训练过程中,对于每一时间步下的当前状态,在选择动作时,依据K-means判别结果进而选择对应的行动者网络。同时为了增加算法的有效性,采用随着训练时间步的增加,逐渐增加K-means类簇的个数和行动者网络个数的方式。将该算法应用于Mujoco仿真平台上,实验结果表明,算法在大多数连续控制任务中具有良好的效果。（2）深度确定性策略梯度算法对于一些简单的连续动作空间任务有着不错的效果,但当任务的状态空间趋于复杂时,单个的行动者网络难以应对,同时存在采用非最优动作和灾难性遗忘等问题。虽然上述（1）算法能有效解决该类问题,但是在（1）算法中,K-means聚类和判别等操作的时间复杂度和训练成本较大。大量实验结果表明,大部分连续动作空间任务的状态空间在训练时满足状态与训练时间步同步变化。利用该思想,在上述（1）的基础上,用时间步来替换K-means聚类、判别等操作,可以有效地减少时间复杂度。此外通过添加优秀经验来指导动作的选取,避免探索盲目问题。结合两者提出了一种基于经验指导的渐进式多行动者深度确定性策略梯度算法。实验结果表明,算法在较低时间复杂度同时,效果也十分优秀。（3）分类经验回放方法可以解决深度确定性策略梯度算法中经验样本利用不充分以及随机采样等问题。分类经验回放方法通过先将经验样本与分类标准比较,然后根据比较结果将经验样本存储到相应的经验缓冲池,然后在训练时根据需要从不同经验缓冲池提取不同比例的经验样本用以训练。该方法可以使经验样本得到充分使用。同时由于分类存储,不同经验样本间相关性也被减弱。然而分类经验回放方法固定了经验池个数,在训练初期每个经验池由于经验分类,导致单个经验池内的经验数量增长缓慢,难以有效地利用经验训练。针对该类问题,将分类经验回放方法与渐进式的方法结合提出了基于渐进式分类经验回放的深度确定性策略梯度算法。该算法相较于单纯的分类经验回放方法,在大多数连续控制任务中实验结果表明,具有更好的效果。

其他文献

面向对话文本的逻辑语义关系检测研究

面向对话文本的逻辑语义关系检测研究1是自然语言处理领域的一项关键任务,准确的检测对话文本的逻辑语义关系能提高对于对话文本的整体理解,对于对话机器阅读理解[1,2]、对话自动摘要[3]、对话回应选择[4]等下游的自然语言处理任务有着极为重要的支撑作用。近年来,随着深度学习的兴起和发展,自然语言处理领域发生了极大的变化。作为自然语言处理中的一个重要的研究课题,对话逻辑语义关系检测不可避免地受到这股浪潮

学位

表面缺陷检测算法训练平台设计及轻量化研究

工业产品加工过程中的部分生产工艺如收缩、凝固,会导致产品表面出现划痕、磨损等缺陷。传统生产工序中通常采用人工质检的方式对产品质量进行判断,这种检测方式不仅耗费人力成本,而且无法准确检测产品质量。随着制造业智能化水平的提升,基于深度学习算法的缺陷检测系统逐渐代替人工质检,提高了缺陷检测效率及劳动生产率。但这些复杂的深度学习算法大都需要部署在云端服务器进行训练,无法满足工厂离线执行的需求且难以部署至嵌

学位

光伏组件用共挤POE材料的可靠性分析

目前光伏组件应用的EVA和常规POE胶膜材料均存在封装缺陷，在此背景下市场推出新型共挤POE胶膜，但需验证可靠性。文章为评估新型共挤POE材料的可靠性，首先选取A和B两个生产厂家的共挤POE胶膜与常规POE胶膜进行关键性能对比，得出共挤POE主要在抗水气渗透和体积电阻率相比常规POE弱；其次通过老化环境测试验证了共挤POE应用在主流双面透明背板组件上的最大风险为抗湿热能力差。研究结果对共挤POE产

期刊

面向低资源机器翻译系统的优化与实现

机器翻译技术在近年来的迅速发展和普及使得越来越多的人享受到便利的跨语言沟通,在一些常用语言以及通用翻译场景下,机器翻译已经能够满足绝大部分翻译需求。目前主流的机器翻译系统采用神经网络模型,需要大量的标注数据,如平行语料、双语词典等,然而对于大多数语言之间的翻译建模而言,高质量的双语语料匮乏,翻译系统质量难以提升。为了高效地利用已有的资源,提升翻译系统的性能,本文提出了两种低资源条件下的数据增强方法

学位

面向属性抽取的语境特征识别与表示学习方法研究

属性抽取是自然语言处理领域的一项重要任务,旨在从文本中自动抽取属性的表述语言,其在情感分析、观点挖掘方面有着重要的应用价值。目前,基于神经网络的属性抽取已经取得了一定研究进展。然而,该任务仍存在三个方面的不足,包括低频属性识别困难,属性词易与普通词混淆,以及可观测样本不充足。为解决上述问题,本文提出以下三个研究内容:首先,根据属性的分布频率,本文将属性划分为高频属性和低频属性。高频属性具有较高的领

学位

智能拣选系统多AGV实时动态调度及三维装箱研究

电子商务和快递行业的高速发展,使得包装制品的需求越发庞大且多样化。在大规模个性化定制的趋势下,行业内积极应用智能物流设备,以实现订单的快速响应和高效精准拣选。论文对AGV调度为主的厂内物流和三维装箱问题进行研究,旨在实现高效的物料搬运、装箱作业以及两者的有效衔接,降低物流运输成本。论文主要工作及研究内容如下:首先,针对网状物料运输结构的大规模多负载AGV调度问题,提出了一种基于邻近组合和最短路径原

学位

高铁轨道波磨去除机器人研制

随着城市化的大面积覆盖,铁路运输开始不断向通车频繁、高速、重载等方向发展,这也就加剧了钢轨表面及内部诸如波磨、疲劳裂纹等病害的形成。国内外多年的实践表明,钢轨打磨维护技术不但可以提高服役钢轨的寿命降低运营成本,而且可以改善列车的运输平稳性,这就促使了多种多样的钢轨打磨设备地不断涌现。基于此,本文运用工业机器人相关技术实现了一款4-DOF钢轨打磨机器人,重点针对机器人打磨作业“让刀”的问题,基于整体

学位

基于大涡模拟的旋转式血泵高保真度数值模拟及优化设计研究

目前心血管相关疾病的发病率持续增加,人工心脏（又称血泵）作为一种有效的治疗手段在临床上的应用上愈发广泛。血泵内血液机械损伤及其引起的并发症（如溶血和血栓）是临床应用中面临的重要难题。离心式血泵底部通常设计有二次流道,以减少流动死区,降低形成血栓的风险。但二次流道的存在,导致血泵内二次流和湍流强度非常高,会显著增加血液损伤。旋转式血泵的最新发展趋势是采用磁悬浮轴承以避免机械接触对血液造成损伤。轴流式

学位

石墨烯薄膜热声发射的建模与分析

自2011年研究人员发现石墨烯薄膜热声效应以来,作为一种新的发声方式,石墨烯薄膜热声发射现象吸引了大量人员对其进行研究。相比于传统的依靠部件振动发声的电声换能器,石墨烯薄膜热发声器具有无振动部件、体积小、重量轻及柔性等优点,这些特性可以改变车辆和飞机等载运工具上扬声器体积过大及布置受限的局面,也可以作为次级声源更好地应用于载运工具的舱室噪声有源控制中。目前为止,大多数工作都是集中在石墨烯薄膜热声发

学位

膝关节置换手术导航中的CT图像自动处理技术研究

严重骨性关节疾病会引起关节疼痛和运动功能损伤,对患者造成永久性伤害,其中膝关节炎是最常见的一种骨退行性关节疾病。膝关节置换术作为治疗膝关节炎最有效的治疗方法,已经呈现出从人工手术到机器人辅助导航手术的趋势。现有的机器人辅助膝关节置换导航手术在术前需要提取膝关节骨骼像素,以分别对股骨和胫骨进行三维重建;在重建的模型上标记膝关节医学特征点,用于术中配准,以实现手术导航。但是上述操作都基于人工标注的方式

学位

渐进式深度确定性策略梯度算法的改进与研究

与本文相关的学术论文