基于自适应调节策略熵的元强化学习算法

来源 :计算机科学 | 被引量 : 0次 | 上传用户:hualing_xue
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的深度强化学习方法依赖大量的经验样本并且难以适应新任务。元强化学习通过从以往的训练任务中提取先验知识,为智能体快速适应新任务提供了一种有效的方法。基于最大熵强化学习框架的元深度强化学习通过最大化期望奖赏和最大化策略熵来优化策略。然而,目前以最大熵强化学习框架为基础的元强化学习算法普遍采用固定的温度参数,这在面对元强化学习的多任务场景时是不合理的。针对这一问题,提出了自适应调节策略熵(Automating Policy Entropy, APE)算法。该算法首先通过限制策略的熵,将原本的目标函数优化问题
其他文献
随着现代城市的发展,工业化对生态环境产生的危害日益增长,在这样的语境下,乡村被赋予了更多的意义和希望,乡村承载着一代代人对家的记忆,同样也是剥离在城市化外的一块净土,
Stencil计算是科学应用中的一类重要计算,而分块是提升Stencil计算数据局部性的关键技术。针对现有三维Stencil优化在SW26010处理器上缺少时间分块以及分块参数需手工调优的
基础数学函数库是计算机系统非常关键的软件模块,然而国产申威平台上的长向量超越函数只能依靠循环调用系统标量函数来间接实现,该方法无法充分发挥申威平台SIMD扩展部件的计
并行计算是提高系统资源利用率的重要手段,越来越多的多处理器片上系统通过集成具有不同功能特点的处理器来满足不同计算任务的需求。具备动态部分可重构特性的异构多处理器
求解全源最短路径的Floyd算法是许多实际应用基础上的关键构建块,由于其时间复杂度较高,串行Floyd算法不适用于大规模输入图计算,针对不同平台的并行Floyd算法设计可为解决现
数据库管理系统虽是一种较为成熟的软件系统,但开发人员在应用数据库系统进行数据管理以及数据分析时还是会遇到各种问题,因此会在Stack Overflow之类的问答论坛上寻求解决方
非负矩阵分解(Non-negative Matrix Factorization, NMF)是一类广泛应用于数据挖掘和机器学习领域的重要矩阵分解模型,可从一组高维非负向量中提取出低维、稀疏和有意义的特征。标准NMF利用Frobenius范数的平方度量重建误差,虽然在一些应用场景中表现出一定的有效性,但对非高斯噪声和离群点较为敏感。由于现实世界中的真实数据不可避免地包含各种噪声,因此有必要对非高斯噪
人群计数是计算机视觉和机器学习领域中一个极具挑战性的课题。由于人群尺度变化和场景遮挡等现象会导致计数准确度不高,因此提出了一种基于跨列特征融合的人群计数方法(Cross-column Features Fusion Network, CCFNet)。该方法融合了来自多列不同接受域的特征,并且结合了拥有互质扩张率的空洞卷积,因此不仅能够增大感受野,还能保证信息的连续性,从而更好地适应人群规模的巨大变
高维数据集的处理是计算机视觉领域的核心,子空间聚类是实现高维数据聚类使用最广泛的方法之一。传统的子空间聚类假定数据来自不同的线性子空间,且不同子空间的区域不重叠。然而,现实中的数据往往不满足这两个约束条件,使得子空间聚类的效果受到影响。为了解决这两个问题,引入核化子空间来解决子空间数据的非线性问题,引入子空间系数矩阵的二阶近邻来处理重叠的子空间问题。随后,设计了基于二阶近邻的核化子空间三步聚类算法
近年来,基于生成对抗网络(Generative Adversarial Network, GAN)从文本描述中合成图像这一具有挑战性的任务已经取得了令人鼓舞的结果。这些方法虽然可以生成具有一般形状和颜色的图像,但通常也会生成具有不自然的局部细节且扭曲的全局图像。这是因为卷积神经网络在捕获用于像素级别图像合成的高级语义信息时效率低下,以及处于粗略状态的生成器-鉴别器由于缺少详细信息生成了有缺陷的结果