基于意图控制的强化学习方法的研究

来源 :天津科技大学 | 被引量 : 0次 | 上传用户:fjms001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度强化学习(Deep Reinforcement learning,DRL)作为机器学习领域的重要学习方法,主要研究智能体如何在未知环境中做出较好的决策,是最有希望实现人工智能这个目标的研究领域之一。目前,深度强化学习在诸多领域如游戏、机器人等取得巨大突破。深度强化学习的目标是找到最优策略,从而取得最大期望回报。为了实现深度强化学习的目标,要求智能体理解所处的环境状态,能够根据任务要求做出符合环境情境的决策动作。传统的策略模型动作选择主要依赖于状态感知、历史记忆及模型参数并且在最终测试及实际应用中,智能体的行为难以控制,动作不规范,难以完成预期任务。然而,当人类智能体要完成一项任务时,他们通常会考虑到自己的意图、动机,根据当前的情境以及自身意愿选择相应的行为。为了让深度强化学习中的行为选择机制更接近人类,使智能体选择包含意图的行为,本文从策略模型入手,根据人类执行任务时,通过意愿控制动作的本质特性,设计一种基于意图控制的强化学习模型,具体地,本文为基于意图控制的强化学习任务设计了全新的目标函数,使其在最大化期望回报的同时,通过意图和行动之间的互信息(Mutual information,MI)最大化让意图变量与动作产生联系。进一步地,本文推导了互信息目标的近似值,从而可以有效求解所提出的具有意图控制功能的目标函数。最后,文章在经典的多目标连续链式行走任务以及Mujoco控制任务中验证了所提基于意图控制的策略模型的有效性。
其他文献
图像翻译作为计算机视觉中一种应用比较广泛的技术,旨在学习一种映射关系,实现源域图像到目标域图像的转换。生成对抗网络凭借神经网络强大的表达能力,具有强大的图像生成能力,现已成为图像翻译的一种主流技术。图像翻译往往采用循环一致性损失或者采用预先定义的内容感知损失以保证领域之间的相关性。然而循环一致性损失需要额外的对称网络,模型较大,不利于训练;内容感知损失需要预先定义,衡量存在偏差,限制了生成器的生成
学位
随着微创技术的发展,较之传统手术,内镜下治疗术后相关并发症在治疗效果、并发症均具有优势,在临床上已经广泛应用。近年来,经内镜OTSC系统治疗消化道出血、修补穿孔和瘘已有成熟经验,在处理胃手术后并发症方面也取得了良好的疗效,逐渐为外科医生所接受。该文综述了OTSC系统治疗胃手术后吻合口漏(瘘)的疗效和安全性,为临床推广提供一些参考。
期刊
本文针对酵母产品的工业化绿色生产问题,引用生命周期评价(Life Cycle Assessment,简称LCA)理论,结合发酵动力学原理,在酵母生产工业流程的基础上建立LCA过程化评估模型,并通过生产大数据对各环节的碳排放进行计算机分析评价研究。酵母产品的生产已形成了较为完整的生产模式,由于不同厂家之间的工艺流程存在差异性,其生产流程的边界范围和参量不同,因此导致LCA评估模型也有不同且不能形成统
学位
填埋是我国城市固体废弃物主要的处置方式之一。填埋垃圾在漫长的稳定化过程中会发生生化降解产生大量填埋气,这些气体淤积在垃圾堆体内极易诱发滑坡和“管涌”等环境灾害。深入研究填埋场中影响降解产气的微生物群落结构和液气阻滞规律有助于提高填埋场灾害防控水平,为此本文研究的核心为生活垃圾填埋场降解产气微生物群落与考虑垃圾孔隙结构特征(双孔隙度)及流体性质(泡沫)的填埋场多相渗流。本文在前人研究的基础上,通过高
学位
图像的超分辨率重建技术指的是将给定的低分辨率图像通过特定的算法恢复成相应的高分辨率图像。传统的方法在性能上还存在一定局限性,包括无法充分利用特征信息、模型训练难度大等。近年来随着技术的发展,深度学习算法被应用到图像超分辨率重建技术并取得了优越的表现。本论文基于深度学习进行图像超分辨重建,其创新点主要有以下几项:(1)本文提出一种全新的图像超分辨率重建网络模型,该模型基于深度学习方法以更大范围的感受
学位
近年来,煤炭资源的开发和利用引发的一系列生态环境问题受到了人们的关注,废弃堆积物已经严重影响了矿区的生态系统,尤其是近些年露天煤矿的快速发展,已经给生态安全带来了隐患。为了进一步改善矿区的生态环境,本研究选取内蒙古高寒地区露天煤矿进行深入实地调查研究。对矿区采用样方法进行随机试验,根据样方选取的科学性和典型性原则,分别选择不同恢复年限(1年、2年、3年和4年);不同恢复地形(平台、坡面和田字格);
学位
学位
近年来,国家针对食品安全问题推行了一系列治理政策,食品安全形势趋于稳定。但随着大数据时代的到来,食品安全事件一经出现就会在网络上迅速传播,例如近几年发生的“三文鱼案板上发现新冠病毒”、“天津某餐饮公司配餐环境脏乱差”、“酸菜在土坑里腌制”等食品安全事件,在网络上引发了网民的激烈讨论。信息的爆炸式增长与传播使得厘清事件的来龙去脉变得越发困难,影响对食品安全事件的监管与治理。由此可见,厘清食品安全事件
学位
冲击模型作为可靠性领域的主要研究内容之一,主要用来刻画在不确定环境下系统运行并受到外界冲击时系统的可靠性变化。在装备制造业中,许多系统在工作期间都会受到外界冲击的影响而导致可靠性逐渐降低,因此,对冲击模型进行建模和可靠性分析具有重要的意义。传统的冲击模型都是基于概率论进行建模和分析,而使用概率论来处理问题需要具备三个条件:事件需要明确定义;有大量的样本存在;样本之间具有概率重复性。但是工程中可获取
学位
目标检测是智能安防、自动驾驶、缺陷检测等热门领域的关键技术之一,随着深度学习的发展,基于深度学习的目标检测技术取得了优秀的效果并且已经具备了良好的理论基础。目标检测场景对嵌入式设备有着广泛的需求,并且嵌入式GPU平台由于其出色的计算能力和模型部署的便捷性成为了最常用的图像处理平台之一。但是目前基于深度学习的目标检测算法对嵌入式设备要求较高,并不能完全适用于嵌入式GPU平台。为此,本文对目标检测算法
学位