【摘 要】
:
经典的强化学习算法主要应用于离散状态动作空间中.在复杂的学习环境下,离散空间的强化学习方法不能很好地满足实际需求,而常用的连续空间的方法最优策略的震荡幅度较大.针对
【机 构】
:
苏州大学计算机科学与技术学院,软件新技术与产业化协同创新中心,吉林大学符号计算与知识工程教育部重点实验室
论文部分内容阅读
经典的强化学习算法主要应用于离散状态动作空间中.在复杂的学习环境下,离散空间的强化学习方法不能很好地满足实际需求,而常用的连续空间的方法最优策略的震荡幅度较大.针对连续空间下具有区间约束的连续动作空间的最优控制问题,提出了一种动作加权的行动者评论家算法(Action Weight Policy Search Actor Critic,AW-PS-AC).AW-PS-AC算法以行动者评论家为基本框架,对最优状态值函数和最优策略使用线性函数逼近器进行近似,通过梯度下降方法对一组值函数参数和两组策略参数进行更新.对两组策略参数进行加权获得最优策略,并对获得的最优动作通过区间进行约束,以防止动作越界.为了进一步提高算法的收敛速度,设计了一种改进的时间差分算法,即采用值函数的时间差分误差来更新最优策略,并引入了策略资格迹调整策略参数.为了证明算法的收敛性,在指定的假设条件下对AW-PS-AC算法的收敛性进行了分析.为了验证AW-PS-AC算法的有效性,在平衡杆和水洼世界实验中对AW-PS-AC算法进行仿真.实验结果表明AW-PS-AC算法在两个实验中均能有效求解连续空间中近似最优策略问题,并且与经典的连续动作空间算法相比,该算法具有收敛速度快和稳定性高的优点.
其他文献
目的:分析消栓肠溶胶囊联合奥扎格雷钠治疗脑血栓的疗效。方法:选取2017年7月至2018年8月至河南科技大学附属许昌市中心医院治疗的脑血栓患者100例作为研究对象,用随机数字表
目的研究分析消栓肠溶胶囊结合丁苯酞注射液治疗脑梗死的临床效果。方法选取我院2017年5月~2018年5月期间接受治疗的脑梗死患者90例,随机平分为两组,设为治疗组和观察组,观察
铁(氢)氧化物对砷酸盐的吸附-解吸控制着土壤和水体中砷的形态、迁移和转化。晶质铁(氢)氧化物对砷酸盐的吸附已经有了较为广泛的研究,但铁(氢)氧化物的不同结构类型导致的吸附砷酸
真空包装机械能够自动抽出装满食品的真空包装袋内的空气,达到预定真空度后完成封口工序。亦可再充入氮气或其它混合气体,然后完成封口工序。真空包装机常被用于食品行业,因
目的:了解中药苦参的有效成分氧化苦参碱对人乳腺癌细胞系MCF-7肿瘤细胞的增殖及其相关的调控机制的干预作用。方法:以乳腺癌细胞株(MCF-7)为研究对象,利用MTT法检测氧化苦参
<正> 近几年来,随着工件材料,特别是各种难加工材料,如高强度、超高强度钢、高温合金、不锈钢、冷硬铸铁等的迅速发展,随着对被加工工件要求的日益提高,对硬质合金刀具材料的
主要评述了新型食品过滤与分离装置的特点,特别是新近开发的DCF过滤器、MBR膜过滤装置、振动式膜分离装置和水平叶滤机的性能和应用,阐明了最近食品过滤与分离装置的新技术,
<正>点击理由刘彦湖的书法给人以熟悉而又陌生的感觉。熟悉在于他对书法的"本"和"核"的坚守,陌生在于他给传统书法注入了新的内涵。一方面,他从民间的不管是简牍残纸还是墓志
目的:检测血管内皮生长因子(vascular endothelial factor,VEGF)和表皮生长因子(epidermal growth factor receptor,EGFR)在非小细胞肺癌(non-small cell lung cancer,NSCLC)