基于好奇心机制的深度强化学习探索方法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:liweibo2555
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着强化学习和深度学习的发展,其中探索和利用问题一直是深度强化学习中一个基础而又重要的概念。探索意味着降低了效率,但避免了快速陷入次优解的问题;利用则表示利用现有策略来执行,这很可能使得算法快速陷入次优解并再也不试图寻找更好的解,但也同时提高了算法的效率。在深度强化学习环境中,到底该如何平衡探索和利用呢?如何改进探索才能使得算法有发现更广阔的空间的能力?如何避免探索过程中出现的各种问题?针对上述问题,本文提出了基于好奇心机制的深度强化学习探索方法—好奇心蒸馏模块(Curiosity Distillation Module,CDM)算法。该算法基于好奇心机制探索方法做改进,认为可以用状态和神经网络预测出的状态的差值作为“惊讶值”来衡量状态的新颖程度,同时该算法结合了随机网络蒸馏的思想,提高了探索能力,并避免了被“Noisy-TV”干扰的问题出现。具体计算方法为:首先,借鉴好奇心机制探索方法,维护一个前向网络,前向网络负责预测下一个状态。其次,维护一个反向网络则通过推测相邻状态间的行为动作,并与真实动作选取对比来去除环境噪声对策略的影响。最后,将随机网络蒸馏的想法融入,避免了探索过程中出现的“Noisy-TV”问题,并提出了一种通过信息增益计算内在奖励的探索算法。将本文提出的算法形式进行现实场景中的实际应用,由此判断该方法的切实性与应用性,并在实际应用时得到了优化解答。将本文的算法和传统的算法进行深层次比较,发现其具有更广阔的探索空间,寻到了环境中更优的解。
其他文献
目的:观察不同危险因素对急性脑梗死患者CD62p表达的影响,同时比较吲哚布芬与阿司匹林对其表达的影响,为急性脑梗死的治疗及二级预防提供新的抗血小板治疗方向。方法:将2019年10月~2020年12月在吉林大学第一医院二部神经内科住院的急性脑梗死患者中,选取符合入组标准的113例患者,采用随机、双盲的原则分组阿司匹林组(53例)、吲哚布芬组(60例),评价两组药物在急性脑梗死患者应用的安全性及有效性
当保险合同承保的危险显著增大时,合同原有的对价平衡遭到破环,保险人所承保的危险与投保人缴纳的保费失衡,需要通过履行危险显著增加通知义务来维持对价平衡。虽然《中华人民共和国保险法》(以下简称《保险法》)第五十二条规定了保险标的危险显著增加通知义务,但实务中,当发生因危险显著增加而导致的保险合同纠纷时,对于如何确定危险显著增加、通知义务是否已经切实履行等问题,仍存在认识或解释上的模糊或分歧,使危险显著
神经重症患者可能出现呼吸驱动力下降、膈肌功能障碍、意识障碍、气道保护能力下降导致呼吸衰竭,需要在神经重症监护病房机械通气治疗。而机械通气时间长又增加膈肌功能障碍和撤机失败的风险。膈肌功能障碍是影响机械通气撤机的重要因素。超声动态监测膈肌结构及功能可作为机械通气患者能否成功撤机的预测指标之一,其优势在于无创、床旁操作、动态。膈肌超声可以评价膈肌厚度、膈肌增厚率、膈肌移动度等指标,从而评价是否存在膈肌
新发展格局是重塑我国国际合作和竞争新优势的战略抉择,构建新发展格局正是学好、用好政治经济学的光辉典范,充分体现了马克思主义政治经济学基本原理与中国实践相结合。从政治经济学视角考察,首先,生产关系新变化是构建新发展格局的首要依据;其次,生产力发展水平是新发展格局的阶段性特征。新发展格局既拓展了政治经济学的内涵,也丰富和发展了市场经济理论,体现了马克思主义政治经济学中国化与国际化的有机结合。新发展格局
背景:急性冠脉综合征(Acute coronary syndrome,ACS)是一种心脏急性缺血综合征,其中包括急性心肌梗死(Acute myocardial infarction,AMI)和不稳定型心绞痛(Unstable angina pectoris,UA)。ACS是严重危害人类健康、增加家庭和社会负担的急危重症之一,所以寻找具有高灵敏性和高特异性的诊断生物标志物对ACS患者意义重大。外泌体
近些年来,各种移动通信设备在人们的工作和日常生活都发挥出了越来越重要的作用。移动通信设备之间通过无线网络实现互联,用户对于无线网络服务质量的需求也随之越来越高。无人机天线阵列在无线通信的作用也显现了出来,无人机天线阵列通信的优化问题也得到了越来越多学者的重视。无人机通信和一般的无线通信不同,需要考虑无人机具有便捷性和携带能源较少的特点,针对无人机天线阵列移动通信要制定特殊的无线网络规划。针对这些问
财务危机预警是一个世界性的问题和难题。企业在生产经营过程中,风险是时时刻刻存在的,但是企业通常会将风险控制在一定的水平之内,在可接受的风险下维持日常的经营,如果风险不加控制,就会演变成财务危机。它并不是瞬间产生的,财务危机可以在企业被宣判财务失败之前就识别出来。本文针对上市公司财务危机预警这一问题展开研究,选取了2010-2020年间沪深A股上市公司作为研究样本,将上市公司被ST作为其陷入财务危机
《云谣集》在敦煌藏经洞出土的曲子词中具有相对的独立性、完整性,无论从题材内容还是性别视角来看,都体现出鲜明的女性特色。《云谣集》中的三十首词作均反映了唐代女性的生活与思想感情,且其中相当多的作品为女性自叙之词,极富鲜活浓郁的生活气息。《云谣集》虽有数首咏歌伎之作,但更多反映的是唐代中上层女性的生活状貌,这一结论与对《云谣集》之俗文学性质的判断并不矛盾。
沥青路面结构在与日俱增的交通量以及重载车辆下的作用下产生路面典型损害,使得当前服役路面结构迅速进入损坏阶段,使用寿命大大缩短。本文通过分析长寿命路面国内外研究现状,确定半刚性基层模式下长寿命路面研究的必要性,进一步提出对寒区沥青路面进行地区特色标定,旨在分析路面结构各结构层力学性能在各影响因素作用下的响应,为半刚性基层模式下长寿命沥青路面结构优化和路面服役寿命的延长做出指导性研究。本文采用有限元软
近些年,利用计算机辅助诊断(CAD)技术进行医学图像的处理与分析得到了广泛的关注。现代深度学习技术日新月异,将卷积神经网络(CNN)用于医学图像处理也成为CAD领域的热门研究方向。由于CNN具有端到端地从图像数据中提取特征的特点,因此在计算机视觉中得到广泛的使用,如语义分割、图像分类等,渐渐成为了深度学习中最具影响力的方法之一,如今,它在医学图像分析的应用也在逐渐增多,渐渐成为了医学图像分析的主流