稳定的深度增强学习算法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:qiuyueguangxuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度增强学习是深度学习和增强学习的有机结合,继承了他们各自的优点,包括深度学习对事物较强的感知能力以及增强学习较强的决策能力,但也仍具有深度学习或增强学习中存在的一些问题。如较多基于值的深度增强学习算法仍具有原始增强学习算法中的过高(低)计问题,过高(低)估计会产生正(负)偏差从而影响算法的稳定性,因此本文针对该问题进行了以下工作:(1)分析研究了影响增强学习稳定性的因素,从偏差和方差两大方面进行了探讨。在偏差方面包括正偏差、负偏差和妄想偏差;在方差方面包括随机方差和重要性采样方差。本文分析了这些因素产生的原因和对算法稳定性造成的影响,为解决这些问题提供了思路。(2)针对解决正负偏差问题,本文创新的提出了一种名为交错存取的解决方法,该方法包括三个部分:一是提出了一种新的估计器——耦合估计器,耦合估计器可以权衡最大估计器和双估计器产生的正负偏差,提高估计的准确率;二是对耦合估计器的耦合率提出了一种创新的设计方式,使得耦合率可以根据样本的变化自适应的调节进而提高性能;三是在耦合估计器的基础上引入交错存取的方式,进一步降低耦合估计器的方差。本文将这三部分统称为交错存取方法。(3)将交错存取方法因地制宜地应用到各类增强学习算法和深度增强学习算法中,提出了对应的交错存取版本的新算法。被改进的算法包括一步时序差分算法中的Q-学习、Sarsa和期望Sarsa;n步时序差分算法中的n步Sarsa和Sarsa(λ);以及深度增强学习算法中的深度Q-学习。本文在最后对各类算法与其双结构版和交错结构版的算法在不同的实验环境中进行了性能对比,并进行了详细分析,本文提出的交错存取版本的新算法均表现最优。
其他文献
目的探讨益气养血化瘀解毒法对老年非小细胞肺癌(NSCLC)放射性肺纤维化疗效及血清组织生长因子(TGF)-β1水平的影响。方法 72例放射治疗后出现肺纤维的老年NSCLC患者随机分为
<正> 什么是持水性?持水性是指肉在冻结冷芷、腌制、绞碎、斩拌、加热等加工处理过程中,肉中的水分及添加到肉中的水分的保持能力。持水性对午餐肉罐头质量的影响主要表现在
19世纪的组织管理展现的是对劳动分工和生产效率的重视,强调的是节流,最小化生产成本;但是伴随着服务业的发展,服务型组织越来越重视员工的表现而不是将其当作机器。为了获得
社会主义市场经济条件下企业经营者年薪制的建立,使经营者的收入与经营成果紧密相联,责权利一致,是现代企业制度的要求,体现了“按劳分配,多劳多得”的社会主义分配原则。企业在实
结合目前国内《药剂学》本科教学的普遍现状,借鉴国外药剂学教学的经验,综合在药剂学课程教学的改革与创新,阐述了对《药剂学》教学的一些认识和体会,并提出了提升学生学习兴趣,提
青岛是一座很美丽的城市。我那时认为它恰如其分的美丽是因为父亲去了那里。  自从父亲去了青岛,这个离我800里的地方突然有了亲和力和感召力。尊敬的青岛市民也好像一下子都成了我的亲人,我特别挂念青岛,想念他们。  父亲是去青岛干建筑小工的,抬水泥、搬石块、挑砖头是他的工作。那时我正上高三,父亲带着家中最破的被子和那顶漏雨的安全帽到县城坐火车。因为还有40分钟的空闲,父亲就到学校去看我。但他并没有见到我
随着安全科学的发展与进步,传统的领导管理模式已经不能满足建筑施工企业的需要,安全领导力逐渐成为企业管理人员提高安全管理新的关注点,许多研究也都证明了提高安全领导力
采用水热合成法,二乙烯三胺(DETA)为模板剂,通过调节模板剂的用量、p H、晶化温度和晶化时间,合成出含锌分子筛,得到合成原料的最佳配比为:n(P2O5)∶n(H2O)∶n(Si O2)∶n(Al2O3)∶n(Zn)∶(D
目的观察老年2型糖尿病患者估测肾小球滤过率(GFR)与臂踝脉搏波速度(baPWV)的相关性。方法入选156例老年2型糖尿病患者,以简化MDRD公式估算肾小球滤过率(GRF),根据eGFR值将研
目的:1.通过检测子宫内膜异位症病灶组织与正常内膜组织中CD146、miR-329、MMP-9及VEGF的表达,分析CD146、miR-329、MMP-9及VEGF与子宫内膜异位症发生发展之间的关系。2.通过在正常子宫内膜间质细胞及异位子宫间质内膜细胞中干扰CD146、miR-329的表达,研究CD146、miR-329与子宫内膜异位症发生的潜在的分子机制。方法:1.取人正常子宫内膜组织和子宫内膜