基于知识表示的迁移强化学习算法

来源 :电子科技大学 | 被引量 : 0次 | 上传用户：sadlyiwas

【摘要】

：

【作者】

：

储焜

【机构】

：

电子科技大学

【出处】

：

电子科技大学

【发表日期】

：

2021年01期

【关键词】

：

强化学习迁移学习知识表示知识迁移

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

机器学习的一个核心主题是顺序决策,这是要求在不确定的环境中依据决策规则选择要执行的一系列动作,以实现某些目标的任务。作为机器学习的重要子领域,强化学习提供了一种解决这类任务的正式框架。然而,解决比较复杂的任务时,它所需要的样本数量难以忍受;另外,当任务发生改变时,原来的解决方案就无法应用,学习必须要重新开始。这些问题促使我们利用现有知识来改善强化学习过程。近年来,迁移学习作为一种利用先验知识来加速学习过程的技术,已经越来越广泛地应用于强化学习领域。但是,在迁移过程中采用不同类型的知识以及不同的知识表达方式,都会直接影响迁移算法最终的性能。本文从迁移的知识及其表示方式入手,针对不同的迁移设置,开展了下面的调查与研究:1.针对于处理动态环境任务的增量强化学习设置,本文提出Advanced-IRL算法。该设置中,智能体需要通过跟踪任务的变化,来处理非平稳环境动态的任务。针对于离散的状态-动作空间,现有的增量强化学习方法通过漂移环境检测和漂移环境的优先扫描,从而将先前的最优策略引导至适应新任务环境的新策略。本文针对于现有方法的弊端与不足,提出增强漂移环境检测的方法;并且就环境变化所产生的信息制定了两项产生式规则,将这些变化信息转化为对原策略和值函数的局部微调。实验表明,Advanced-IRL算法能够有效地检测环境的复杂变化,并且在新任务中拥有优异的性能。2.针对于连续处理多个任务的终身强化学习设置,本文提出SR-LLRL算法。该设置中,智能体在其终身时间内,连续地处理从某个固定但未知的任务分布中采样得到的一系列任务实例。其目标就是不断地利用先前任务中学习到的知识,去提高在新任务中的性能。然而,这些任务的环境奖励一般是稀疏和延迟的,极大地降低了算法的学习效率。为了解决这个问题,本文提出基于奖励塑形的SR-LLRL算法,将先前任务中积累得到的最优轨迹样本的知识,表示为适用于新任务的额外奖励信息。实验表明,SR-LLRL算法不仅加快了智能体的学习速度,还极大地提升了终身学习性能。

其他文献

基于虚拟接近传感器的碰撞检测算法的研究与改进

在工业4.0时代,“数字化双胞胎”成为众多企业向数字化、智能化转型的战略法宝。其核心是将现实生产制造中的各个环节通多数字化手段虚拟到数字化平台中,形成虚拟生产制造和现实生产制造的镜像。因此,数字化双胞胎概念的提出对优化整个企业流程、提升企业竞争力起着至关重要的作用。特别是在智能制造行业中,它势必会推动智能制造的快速发展。但是,目前国内很少有企业将数字化双胞胎的概念运用到接近传感器中。尤其是工业流水

学位

虚拟接近传感器虚拟仿真碰撞检测B+树包围盒相交测试

利用机器学习方法识别肝癌早期诊断标志

肝细胞癌（hepatocellular carcinoma,HCC）是一种常见的恶性肿瘤,其在全球癌症相关死亡人数中排名第三。目前,HCC的早期检测方法主要有血清标记物检测与影像学检查。其中,血清标记物的灵敏度不高,无法鉴别大约1/3以上的肝癌患者。影像学检查对于直径<2厘米且分化较好的早期肿瘤的诊断敏感性约50%左右。因此,对于影像学检查难以辨别的早期肝癌组织中发生的微小病理改变,通常采用肝穿刺

学位

肝细胞癌早期诊断基因表达的秩序关系最小冗余最大相关支持向量机

基于深度学习的太赫兹高速传输技术研究

随着第五代移动通信系统（5G）的商用化逐渐落地,毫米波频谱资源会变得逐渐稀缺,此时比毫米波频段更高的太赫兹（THz）频段必将是未来通信发展的主要趋势。近年来,THz通信已被公认为可以为第六代无线通信系统（6G）提供足够频谱资源和超高数据速率的有前途的技术。由于THz信号路径衰减以及分子吸收十分严重,长距离通信会对信号强度造成很大程度的损害,所以短距离室内场景是目前研究THz通信最适用的场景。然而,

学位

THz通信超反射材料深度学习信道估计压缩感知波束选择

基于卷积神经网络的局域网故障诊断技术研究

随着以太网的日益发展,局域网的复杂程度也随着用户数和网络终端的增多而越发提高。为了保证局域网运行环境的健康稳定,在局域网的故障管理过程中,网络管理员需要对网络的整体运行状态把控和对网络故障进行成因分析和经验式诊断。但由于局域网往往承载着特殊业务,传统方法非常耗时耗力,于是现阶段对故障诊断的响应以及智能程度提出了新的要求。因此,本文从深度学习角度出发,研究了基于卷积神经网络模型的网络故障诊断方法。本

学位

卷积神经网络局域网网络故障诊断数据采集特征工程

量子强化学习算法及其在特征值问题上的应用

量子力学本身的特殊性质使得量子算法在解决某些问题上具有量子优势。本文着眼于量子查询算法以及量子强化学习算法,提出了两种不同的解决特征值问题的量子算法,这两个新的方法相比较于经典算法都具有量子优势。在第一个工作中,我们受到不动点搜索算法的启发,提出了基于查询的方法来解决特征值求解问题。我们将此问题转化为基于查询的搜索问题,并且将未知的特征态设定为所求问题的目标态。我们的方法主要思想是通过不动点Gro

学位

量子计算量子算法强化学习量子神经网络特征值问题

量子强化学习的算法实现与应用

随着信息时代的到来,计算机不仅促进了社会的发展,也改变着人们的生活。但冯诺依曼体系计算机的发展将会逐渐受到限制。近些年,量子计算逐渐受到人们的关注,量子计算中存在纠缠和叠加等特性,可以利用这些特性实现加速。将量子计算与经典的机器学习算法相结合,有望解决数据量巨大和训练速度缓慢等棘手的问题。本论文主要分为两部分,一部分我们主要介绍了量子计算的基础和量子变分电路研究现状及背景,量子变分电路是在量子本征

学位

量子计算强化学习量子变分电路量子强化学习

DL-FDTD算法研究及仿真软件的开发

机器学习已然成为现代科学的基石,它被广泛地应用于所有科学领域。然而,它于计算电磁学（CEM,Computation Electromagnetics）算法相结合还有待研究。在本文中,我们将基于深度学习（DL,Deep Learning）的机器学习方法与传统的FDTD（Finite-Difference TimeDomain）算法相结合,研究DL-FDTD算法原理和实现技术,并应用在计算电磁学中。本

学位

时域有限差分法神经网络完全匹配层电磁仿真软件深度学习

基于机器学习和深度学习对脓毒症的预警及不良预后预测

目的:本研究旨在系统评价机器学习算法预测脓毒症发病及病死率研究的方法学和预测模型,提出机器学习预测研究报告标准,并以此为基础创建危重症患者数据集,进行脓毒症发病和预后预测研究。方法:研究分为两个部分。第一部分为系统评价（systematic review）研究。检索中国知网、万方数据库、Pub Med、Web of Science等数据库中机器学习算法用于脓毒症预测文献,时间从2010年1月至20

学位

脓毒症深度学习预测神经网络

基于机器学习的Web日志异常流量检测技术研究

随着互联网的普及和飞速发展,网络安全问题也愈发重要。Web日志记录了网站的运行信息和用户的所有操作,通过日志分析开发者可以检测出网络的异常流量,及时发现漏洞。由于传统的基于规则和模式匹配的日志分析技术对海量数据的处理效果不佳,也无法应对形式复杂多样的网络攻击,将机器学习和深度学习技术应用到日志分析领域是大势所趋。本文提出了一种自定义特征的方法,对比于其他基于统计信息的特征提取,该方法将特征提取的重

学位

日志异常流量检测自定义特征特征系数调节粒子群优化算法ELK

多智能体协作控制的若干问题研究

多智能体系统是一种复杂的网络系统,其应用涉及了多个领域,如无人机协作控制、传感器网络设计以及机器人编队等。近年来,多智能体系统的一致性问题受到了许多学者的广泛关注。如何设计恰当的协议,使得系统内个体间的状态能够达到一致是研究多智能体一致性的关键问题。目前对于一致性的研究大都只涉及一阶、二阶,缺乏对具有有限子群的高阶系统尺度一致性的研究。本文主要研究具有有限子群的离散时间三阶多智能体系统的尺度一致性

学位

多智能体系统尺度一致性算法无向/有向通信拓扑群跟踪控制群编队控制

基于知识表示的迁移强化学习算法

与本文相关的学术论文