深度强化学习方法优化研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:sdwtb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度机器学习与人工智能的迅猛发展,强化学习作为最接近“强人工智能”范畴的机器学习方法已成为近年来的热门研究方向。强化学习采用无监督的方式进行“试错”学习,智能体基于自身经验学习最优策略,无需预先标注好的样本或大量的先验知识,对于解决动态场景下的复杂问题优势明显,应用潜力十分巨大。目前,对于强化学习的研究主要集中于深度强化学习以及多智能体深度强化学习两个方面。对于深度强化学习,已有越来越多不同种类的算法以及相关优化技术被提出,其中部分方法已经可以被成熟地应用于实际场景,解决实际问题,例如游戏对战、电子对抗、无人机控制等领域。对于多智能体深度强化学习,近年来已有多种方法被提出可以很好地解决多智能体环境下智能体协作或竞争关系、信息共享以及奖励分配等问题,对于民用和军用都具有极高的研究价值和研究意义。软“演员-评论家”算法(Soft Actor Critic,SAC)是近年来较为新颖且性能较优的AC框架下的深度强化学习算法,在一系列连续性动作环境中表现出了最优性能,但其中也存在一些问题。首先,与其他深度强化学习算法类似,SAC算法中也存在Q值高估偏差问题,且原算法对于Q值高估偏差的解决方案会使得智能体出现过度悲观估计,存在缺陷;其次,对于稀疏奖励环境,SAC算法的探索性仍然不足,算法性能较差;然后,已有的经验回放策略无法在稀疏奖励环境中充分地利用探索性较强的经验条目以加快智能体的学习速度,存在缺陷;最后,对于如何在多智能体稀疏奖励环境中提升算法性能,现有的研究仍不充分。本文针对上述四方面的问题,分别基于SAC算法提出三点改进,并将改进后的单智能体算法拓展到多智能体稀疏奖励环境中。本文主要研究内容涉及如下几方面:(1)本文提出了基于不确定性正则项校正的SAC算法——URC-SAC算法。算法中引入基于智能体认知不确定性的惩罚项、平均Q值估计以及最大化Q值估计,在控制Q值高估偏差的同时避免智能体的过度悲观估计,提升算法性能。(2)本文将RND机制与URC-SAC算法加以结合。同时,提出一种基于RND机制改进的优先级经验回放策略,与URC-SAC算法加以结合。分别从探索性和利用性两个方面提升智能体在稀疏奖励环境下的性能。(3)本文将上述结合了RND好奇心机制以及改进的经验回放策略的URCSAC算法拓展到多智能体环境,提出MA URC-SAC算法,在多智能体稀疏奖励环境中提升算法性能。(4)本文分别基于Open AI gym下的Mu Jo Co、Classical Control以及Multiagent-particle-envs环境从不同指标对比算法性能,证明本文提出的改进方法可以较好地解决上述三方面问题,取得较好效果。
其他文献
随着深度学习领域的发展以及人们安全意识的提高,深度学习在安防领域的应用越来越广泛,应用于门禁系统的人脸识别算法在数字化时代成为研究热潮。但由于目前人脸识别算法大多为面部无遮挡物的识别,在新冠疫情流行期间,对佩戴口罩人脸的识别效果不佳,造成了门禁系统工作的不便。为了实现戴口罩人脸的识别,加强门禁系统对戴口罩人脸识别的鲁棒性,提出一套应用于门禁系统的深度学习人脸识别模型。模型训练阶段,本文模型采用基于
学位
目前我国大多数陆上油田已经进入高含水阶段,采出液具有“低产油、高含水”的特点,而精确的含水率测量对实时调整油井开采参数和开采策略,提高采收率、减低成本、延长油田寿命都有着重要意义。由于油井采出液电特性与含水率有着对应关系,通过测量油水两相流的电特性参数以获取含水率成为当前研究的热点。本文借鉴生物医学领域电导率测量技术,提出基于磁声耦合效应的油水两相流电导率测量方法,并开展激励方式的研究工作。文中首
学位
非常规油气资源逐步成为我国油气勘探开发的重点,其开发难度大,导致对钻具姿态测量的要求较高。为了提高姿态测量算法的精准度,需要在开发过程中对算法进行深入的验证。但是,真实传感器测量存在环境电磁干扰和实验室无法模拟井下环境等问题,导致姿态测量开发过程算法验证困难。因此,本课题提出虚拟随钻姿态测量传感器的设计来解决以上问题。本课题通过对姿态测量传感器在钻井过程中受到的干扰及噪声影响进行建模,结合数据输出
学位
在现代信息社会,由于国民经济的健康发展与科学技术的提高,人们的经济活动也变得更加频繁,发票成为了记录经济活动的重要载体。然而,在传统的发票录入流程中,大多数录入工作都需要人工完成,这种录入方式效率低下且浪费人力资源。随着光学字符识别(Optical Character Recognition,OCR)技术与深度学习技术的兴起,给人们自动化的信息提取提供了极大的便利,因此,利用深度学习技术来解决发票
学位
热压固化罐是复合材料固化的关键设备,热压罐系统的高效性和可靠性影响着整个固化流程的生产和经济效益,同时热压罐属于高温高压容器,较易引发事故,因此,设计一个集安全和自动化为一体的热压固化罐监控系统是非常重要的。本文以热压固化罐系统作为研究对象,根据现场工艺流程特点及厂家的需求确定了整体设计方案,设计了以西门子S7-300PLC控制器为核心,并结合PROFINET和PROFIBUS-DP总线的计算机在
学位
为从根本上提升水利泵站运行期间的经济效益与生态效益,需要在原有水利泵站单体节能基础上采用目标电耗理念,对各能耗单元进行不断优化。注重分析水利泵站节能优化方式,评估不同节能方法的运行效果。基于此,文章分析了水利泵站改造前的耗能情况,提出现有目标电耗控制技术,确保实际研究结果能够为类似水利泵站节能改造工作提供重要意义。
期刊
佩戴安全帽是防止施工作业人员头部损伤的有效方法之一,利用目标检测技术识别工人安全帽的佩戴情况,能够协助完善施工现场安全措施、有效预防安全事故发生。然而,现有安全帽佩戴检测算法多存在小目标识别准确率低、密集遮挡场景检测难度大、复杂场景适应性差的问题。因此,本文立足于深度学习目标检测技术对安全帽佩戴检测相关算法进行研究与改进,提出了一种基于改进YOLOv5s的安全帽佩戴检测模型,以解决实际安全帽佩戴检
学位
激光诱导击穿光谱技术(Laser-induced Breakdown Spectroscopy,LIBS)是一种基于原子发射光谱的多元素分析技术,具有样品预处理简单、快速分析、实时在线等特性。将模式识别算法应用于LIBS光谱数据分析中,以提高其分析性能,推动LIBS技术的应用进程。针对丹参产地识别问题,基于LIBS技术得到丹参的光谱信息,利用支持向量机(Support Vector Machine
学位
钻杆是钻井过程中实现力的传递、钻头钻进、井轨迹的延伸和导向钻井控制的主要设备,钻杆螺纹是否完好是钻杆安全连接的关键。因此,针对钻杆公母螺纹检测,研究合理有效的检测方法是实现全自动接钻杆的关键基础性研究。本文采用图像处理技术测量钻杆螺纹参数的方法,通过大量的实验,深入的研究了钻杆螺纹检测方法。主要的研究成果有:首先介绍钻杆螺纹检测系统的硬件实验平台和软件系统组成,根据选型规则搭建图像采集系统。其次,
学位
镀铬是电镀产品生产中一种比较重要的工艺,其温度控制效果和自动化控制水平直接关系到镀件的质量与产量和电镀工艺能否顺利执行。因此,设计一个可靠性高,稳定性好的自动控制系统在镀铬生产线中是十分重要的。本文以镀铬自动生产线控制系统设计为目标,对镀铬生产线的工艺和控制要求进行分析,并结合企业的实际情况,设计了一套基于TIA Portal Wincc和西门子S7-1200 PLC电镀生产线自动控制系统,对自控
学位