基于参数探索的近似策略优化方法的研究

来源 :天津科技大学 | 被引量 : 0次 | 上传用户：hushengming1

【摘要】

：

【作者】

：

杨佳欣

【机构】

：

天津科技大学

【出处】

：

天津科技大学

【发表日期】

：

2023年01期

【基金项目】

：

国家自然基金；

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

强化学习为机器学习领域的重要学习方法,主要研究智能体如何根据当时环境做出较好的决策,是最有希望实现人工智能这个目标的研究领域之一,也是智能系统开发者关注的研究热点。策略梯度算法是强化学习领域中实用性强、易于实现,被认为是处理连续空间中复杂决策任务的主流方法,但此类算法存在梯度估计方差大,策略更新不稳定问题。基于参数探索的策略梯度算法（Policy Gradients with Parameter-based Exploration,PGPE）提出了动作确定性策略以及在目标参数的先验分布中随机采样的思想,有效提升了策略梯度算法在复杂环境中的稳定性。然而,强化学习算法面向复杂未知环境时,需要大量的学习样本才能得到稳定的训练效果。由于物理系统的特殊性,收集大量的交互学习样本十分困难,需要耗费高额的人力、物力以及时间成本,因此,样本利用率在强化学习实际应用中是一个瓶颈问题。本课题针对强化学习算法在复杂连续空间中稳定性差和样本利用率低的问题展开研究,提出了基于参数探索的近似策略优化算法（Proximal Parameter-based Policy Optimization,PPPO）。具体地,在PGPE算法框架下,引入近似策略优化思想,基线采样与对称采样技术,旨在面对采样量有限的环境下,通过采用确定性策略减少不必要的随机性,在不增加策略梯度方差的前提条件下通过重复使用旧样本提升智能体训练效果。这样既解决了高维环境下的训练不稳定问题,又解决了样本利用率的问题。最后,本文通过低维连续空间下机器人控制实验验证PPPO算法的有效性。进一步地,本文在高维空间下机器人智能控制任务上应用PPPO算法进行控制,实验结果表明该算法具有更佳的收敛质量和更优异的性能表现,能够从增加样本利用率及减小策略梯度估计方差这两方面解决上述强化学习算法存在的问题。

其他文献

基于意图控制的强化学习方法的研究

深度强化学习（Deep Reinforcement learning,DRL）作为机器学习领域的重要学习方法,主要研究智能体如何在未知环境中做出较好的决策,是最有希望实现人工智能这个目标的研究领域之一。目前,深度强化学习在诸多领域如游戏、机器人等取得巨大突破。深度强化学习的目标是找到最优策略,从而取得最大期望回报。为了实现深度强化学习的目标,要求智能体理解所处的环境状态,能够根据任务要求做出符合环

学位

面向电力通信设备故障信息的知识图谱构建方法研究

随着智能电网及能源互联网的快速发展,海量异构的电力通信设备不断接入到电力基础设施中,极大地促进了电网的数字化建设。然而,一旦电力通信设备出现故障可能引起电网扰动,威胁电网安全。海量的设备使得故障研判数据呈指数级增长,且由于设备功能各异,故障千差万别、影响不一,导致运维过程中出现监管实效差、故障信息定位难等问题。而现有电力故障数据库结构冗余、关联复杂难以分析,故障信息检索效率低、准确率差,其对电网智

学位

基于生成对抗网络的人脸图像超分辨率研究

近年来,人脸图像的超分辨率研究具有极其重要的意义,受到越来越多的关注。传统的人脸图像的超分辨率往往采用插值方式容易导致纹理结构粗糙,甚至人脸结构扭曲。基于生成对抗网络的人脸图像超分辨率方法虽然具有强大的数据生成能力,但是由于缺乏反馈不能实现从低分辨率输入到超分辨率结果的复杂映射,且重建结果存在局部模糊或失真等问题。因此,本文提出基于生成对抗网络的人脸图像的超分辨率的改进方法,主要贡献如下:（1）传

学位

复杂场景下的行人重识别方法研究与实现

复杂场景下的行人重识别是自动驾驶、智能交通、智能安防等领域中应用非常广泛的算法,也是机器视觉应用领域所研究的热门问题。行人重识别的核心问题是在复杂情景中实现跨摄像机对行人的辨认和搜索。目前针对行人重识别任务的方法取得了较好的识别效果,但还是存在以下问题:一方面,行人属性识别作为行人重识别的重要基础,可以提高对行人的辨识度,在行人属性识别实际应用中,经常会遇到训练样本中的属性不平衡情况,影响了算法的

学位

基于变分自编码的表征学习研究

随着机器学习技术的发展,无监督表征学习已经成为目前最重要的研究方向之一。变分自编码模型（variational autoencoder,VAE）因其显式的生成模型建模方式,已经被视为无监督表征学习领域最具研究价值的模型之一。无监督聚类表征学习是表征学习领域一个重要研究分支。传统深度聚类表征学习方法更多关注通过深层神经网络去提取数据的隐层特征来提升聚类精度,较少对聚类任务中数据类别的确定性问题进行分

学位

规范产权交易平台实现资源优化配置

＜正＞2022年末，在江苏省连云港市赣榆区赣马镇农村产权服务交易中心，随着仲马自然村50.5亩土地发包项目的应声落锤，赣马镇当年交易了1668个项目，交易额4450.11万元，分别提前完成年度任务的120%、130%。近年来，赣马镇农村产权交易服务中心，充分发挥交易平台功能，坚持“应进必进”，突出规范化，抓关键、抓落实，

期刊

基于区块链技术的应急管理系统的研究

近年来,城市自然灾害发生的频率越来越高,造成了大量的人员伤亡和财产损失,因此需要大力推进城市灾害防御工程建设,其中完善城市灾害应急管理系统就是很重要的一个方面。但是在目前的应急处理中,不但不同的部门有各自的应急管理系统,各自管理,较为分散,而且系统本身大多数采用中心化管理,以上原因导致应急处理过程存在着消息共享不及时,受故障或者攻击影响较大,事后难以追责等问题。区块链技术凭借其去中心化、防篡改以及

学位

复杂环境下图像超分辨率生成对抗模型研究

图像超分辨率是计算机视觉领域的一个重要分支,在安防、医疗、军事等领域具有重要的研究意义和应用价值。近年来,随着神经网络等技术的不断发展,图像超分辨率在准确率和生成速度等方面都取得了更好的成就。在图像超分辨率的训练过程中,真实的训练数据一般很难获得,基于此,研究者大都使用人工构造的训练数据进行训练。但是,使用人工构造的数据进行训练得到的图像超分辨率模型存在一个问题,那就是对人工构造的低分辨率图像超分

学位

基于设计牵头的EPC项目设计管理要点研究分析

为了提高基于设计牵头的EPC项目设计管理水平，论文通过分析EPC项目培养过程中所涉及的内容，提出EPC项目设计管理要点，并探讨研究了设计与造价、采购、施工、试运行以及设计变更在EPC项目管理中的应用，解决了设计企业在EPC项目设计管理中存在误区和“黑匣子”等问题，从而推动设计企业自身业务的发展，并不断提升企业自身竞争力。

期刊

一种基于物品协同过滤的改进长尾推荐算法

目前传统的推荐系统,存在严重的长尾效应。推荐系统往往只会给用户推荐当前比较热门的物品,而具有较高价值性但比较冷门的物品没有得到良好的推荐。因此,为了解决上述问题,本文提出了一种基于物品协同过滤的改进长尾推荐算法。本文的主要工作包括内容如下:（1）目前基于物品的协同过滤推荐算法,其在数据集上存在较为严重的稀疏性,稀疏性影响相似度的计算,越稀疏计算得出的推荐准确率越低,且长尾物品并没有得到较好的挖掘。

学位

基于参数探索的近似策略优化方法的研究

与本文相关的学术论文