连续空间中的一种动作加权行动者评论家算法

来源 :计算机学报 | 被引量 : 0次 | 上传用户：bobo82111

【摘要】

：

经典的强化学习算法主要应用于离散状态动作空间中.在复杂的学习环境下,离散空间的强化学习方法不能很好地满足实际需求,而常用的连续空间的方法最优策略的震荡幅度较大.针对

【作者】

：

刘全章鹏钟珊钱炜晟翟建伟

【机构】

：

苏州大学计算机科学与技术学院,软件新技术与产业化协同创新中心,吉林大学符号计算与知识工程教育部重点实验室

【出处】

：

计算机学报

【发表日期】

：

2017年06期

【关键词】

：

强化学习连续空间函数逼近行动者评论家梯度下降人工智能

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

经典的强化学习算法主要应用于离散状态动作空间中.在复杂的学习环境下,离散空间的强化学习方法不能很好地满足实际需求,而常用的连续空间的方法最优策略的震荡幅度较大.针对连续空间下具有区间约束的连续动作空间的最优控制问题,提出了一种动作加权的行动者评论家算法(Action Weight Policy Search Actor Critic,AW-PS-AC).AW-PS-AC算法以行动者评论家为基本框架,对最优状态值函数和最优策略使用线性函数逼近器进行近似,通过梯度下降方法对一组值函数参数和两组策略参数进行更新.对两组策略参数进行加权获得最优策略,并对获得的最优动作通过区间进行约束,以防止动作越界.为了进一步提高算法的收敛速度,设计了一种改进的时间差分算法,即采用值函数的时间差分误差来更新最优策略,并引入了策略资格迹调整策略参数.为了证明算法的收敛性,在指定的假设条件下对AW-PS-AC算法的收敛性进行了分析.为了验证AW-PS-AC算法的有效性,在平衡杆和水洼世界实验中对AW-PS-AC算法进行仿真.实验结果表明AW-PS-AC算法在两个实验中均能有效求解连续空间中近似最优策略问题,并且与经典的连续动作空间算法相比,该算法具有收敛速度快和稳定性高的优点.

其他文献

消栓肠溶胶囊联合奥扎格雷钠治疗脑血栓的疗效分析

目的:分析消栓肠溶胶囊联合奥扎格雷钠治疗脑血栓的疗效。方法:选取2017年7月至2018年8月至河南科技大学附属许昌市中心医院治疗的脑血栓患者100例作为研究对象,用随机数字表

期刊

消栓肠溶胶囊奥扎格雷钠脑血栓

消栓肠溶胶囊结合丁苯酞注射液治疗脑梗死疗效观察

目的研究分析消栓肠溶胶囊结合丁苯酞注射液治疗脑梗死的临床效果。方法选取我院2017年5月~2018年5月期间接受治疗的脑梗死患者90例,随机平分为两组,设为治疗组和观察组,观察

期刊

脑梗死消栓肠溶胶囊丁苯酞注射液

三种铁（氢）氧化物对砷酸盐的吸附解吸研究

铁（氢）氧化物对砷酸盐的吸附-解吸控制着土壤和水体中砷的形态、迁移和转化。晶质铁（氢）氧化物对砷酸盐的吸附已经有了较为广泛的研究，但铁（氢）氧化物的不同结构类型导致的吸附砷酸

学位

水铁矿针铁矿赤铁矿砷酸盐吸附解吸

解码食品真空包装机械及其应用趋势

真空包装机械能够自动抽出装满食品的真空包装袋内的空气,达到预定真空度后完成封口工序。亦可再充入氮气或其它混合气体,然后完成封口工序。真空包装机常被用于食品行业,因

期刊

真空包装食品机械性能特点应用趋势

用判别式求取值范围(高一、高二、高三)

期刊

取值范围

氧化苦参碱对人乳腺癌MCF-7细胞的生长抑制作用及其机制研究

目的:了解中药苦参的有效成分氧化苦参碱对人乳腺癌细胞系MCF-7肿瘤细胞的增殖及其相关的调控机制的干预作用。方法:以乳腺癌细胞株(MCF-7)为研究对象,利用MTT法检测氧化苦参

期刊

氧化苦参碱MCF-7增殖凋亡Wnt/β-catenin

几种新牌号硬质合金的切削性能及其应用

<正> 近几年来,随着工件材料,特别是各种难加工材料,如高强度、超高强度钢、高温合金、不锈钢、冷硬铸铁等的迅速发展,随着对被加工工件要求的日益提高,对硬质合金刀具材料的

期刊

硬质合金切削效果冷硬铸铁钦合金高温合金切削性能耐磨性切削速度高强度调质钢

新型食品过滤与分离装置的特性及其应用

主要评述了新型食品过滤与分离装置的特点,特别是新近开发的DCF过滤器、MBR膜过滤装置、振动式膜分离装置和水平叶滤机的性能和应用,阐明了最近食品过滤与分离装置的新技术,

期刊

食品过滤与分离装置特性应用

点击书法·刘彦湖

<正>点击理由刘彦湖的书法给人以熟悉而又陌生的感觉。熟悉在于他对书法的"本"和"核"的坚守,陌生在于他给传统书法注入了新的内涵。一方面,他从民间的不管是简牍残纸还是墓志

期刊

刘彦湖正统文化

VEGF、EGFR的表达与非小细胞肺癌生物学行为的相关性

目的:检测血管内皮生长因子(vascular endothelial factor,VEGF)和表皮生长因子(epidermal growth factor receptor,EGFR)在非小细胞肺癌(non-small cell lung cancer,NSCLC)

期刊

血管内皮生长因子表皮生长因子非小细胞肺癌

连续空间中的一种动作加权行动者评论家算法

与本文相关的学术论文