【摘 要】
:
模型化强化学习是深度强化学习领域中的一种有效学习模式,能够缓解强化学习在实际应用中样本利用率低的瓶颈问题.然而,受环境复杂性及动态性影响,学习得到准确的状态转移环境
【基金项目】
:
国家自然科学基金资助项目(61976156),天津市教委计划科研项目(2017KJ034)
论文部分内容阅读
模型化强化学习是深度强化学习领域中的一种有效学习模式,能够缓解强化学习在实际应用中样本利用率低的瓶颈问题.然而,受环境复杂性及动态性影响,学习得到准确的状态转移环境模型极具挑战.为此,本文提出一种基于条件生成对抗网络的复杂环境中有效的模型化策略搜索强化学习方法.该方法首先利用条件生成对抗网络对环境中的状态转移函数学习,再利用经典的策略搜索方法进行策略学习.通过实验验证,该方法能够准确地生成状态转移数据,为策略学习提供充足的学习样本,从而得到稳定、高性能的策略.
其他文献
针对相关滤波跟踪算法中不能适应目标多尺度变化的问题,提出了一种融合位置估计和尺度估计的自适应尺度相关滤波器.通过提取当前图像中不同尺度大小的目标模板,作为先验信息加到滤波器中学习,训练滤波器.对多尺度模板训练赋予新的权重定义,重新定义了多尺度模板对应的标签.提高了滤波器对目标尺度变化的敏感度.通过在CVPR2015数据集验证,该方法的精准率为0.803、成功率为0.705.特别是在多尺度环境影响下
基于2008—2017年全国自动气象观测站逐旬土壤相对湿度观测数据,综合评估中国气象局陆面数据同化系统(CMA Land Data Assimilation System,CLDAS) 0~20 cm层融合土壤相对湿度产品在中国地区的适用性,评估表明CLDAS土壤相对湿度产品在中国东北、西北、江南大部及华南等地区存在较大系统性误差,总体上适用性较差。为消除CLDAS土壤相对湿度产品的系统性误差,采
目的探讨miR-223、miR-324-5p与慢性乙肝肝纤维化的关系,以及其对慢性乙肝感染及肝纤维化程度的临床诊断价值。方法选取本院2018年1月至2019年12月收治的80例慢性乙型肝炎患
利用区域自动气象站资料、天气雷达资料、宁波机场AWOS(automated weather observation system)资料和NCEP再分析资料等对2017年7月22日发生在宁波机场附近的一次孤立强雷暴
阐述了CINRAD/SA-D双偏振多普勒天气雷达(简称“双偏振雷达”)标定技术,统计分析了济南双偏振雷达试运行以来在线自动标定数据和该时间段内的维护维修情况,从雷达几十个标定
以磷酸盐法和阳离子淀粉法二步复合包覆改性磷石膏晶须,作为造纸填料进行抄纸,探讨磷石膏晶须在不同助留体系下的留着率以及纸页性能的变化情况.对白水中杂质离子进行沉淀处
目的探讨基质辅助激光解吸电离飞行时间质谱(MALDI-TOF-MS)在快速准确鉴定儿童血流及尿路感染病原菌方面的临床应用优势及操作关键点。方法收集西安市儿童医院血培养报警阳性
采用温压分控爆破技术对草酸预浸渍过的杨木片进行处理,分别探究了草酸预浸渍质量分数、维压温度、维压时间以及爆破压力对爆破后样品三大组分相对含量的影响,并确定最佳爆破
白三烯A4水解酶(LTA4H)是抑制炎症和肿瘤的一个潜在靶点.本研究基于LTA4H晶体结构和前期研究基础,以吲哚为母核,在其1,5位分别进行取代,设计合成了两个系列共计30个吲哚衍生