采用经验复用的高效强化学习控制方法

来源 :华南理工大学学报(自然科学版) | 被引量 : 0次 | 上传用户：liufengsheng

【摘要】

：

使用定长情景进行学习的eNAC（episodic Natural Actor-Critic）算法是一种在理论上具有良好学习性能的强化学习控制算法,但其学习过程需要采样较多的定长情景,学习效率低.为此,

【作者】

：

郝钏钏方舟李平

【机构】

：

浙江大学控制科学与工程学系,浙江大学航空航天学院

【出处】

：

华南理工大学学报(自然科学版)

【发表日期】

：

2012年6期

【关键词】

：

强化学习自然策略梯度经验复用倒立摆控制 reinforcement learning natural policy gradient experience

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

使用定长情景进行学习的eNAC（episodic Natural Actor-Critic）算法是一种在理论上具有良好学习性能的强化学习控制算法,但其学习过程需要采样较多的定长情景,学习效率低.为此,文中提出了一种新的强化学习控制算法ER-eNAC.该算法在eNAC算法的基础上引入了定长情景复用机制,在自然策略梯度估计过程中,复用部分过去采样的定长情景以更有效地利用经验信息;在使用复用的定长情景时,按照其参与的策略更新次数进行指数递减加权以描述其对当前策略的适用性.倒立摆稳定控制问题的仿真结果表明,与eN

其他文献

顶层设计应用于社会领域的适用性分析

由于工程技术领域与社会领域的巨大差异,源自工程技术领域的顶层设计延展至社会领域应用时会出现适用性问题,这需要采用适用于社会运行规律的应用形式和原则。社会领域的顶层

期刊

顶层设计社会领域适用性

豫西农村初级中学体育教学的调查与研究

运用文献资料法、问卷调查法等方法对河南省洛宁县河底镇农村初级中学体育教学现状进行研究。结果显示:洛宁县河底镇农村中学学校的体育教育经费所占比例过小,场地以及体育器

期刊

豫西农村中学体育教学现状

急性颅脑外伤患者术后躁动原因及护理干预

目的：研究颅脑外伤患者在手术之后出现躁动行为的原因，并探讨对出现躁动行为的颅脑外伤患者进行护理干预的对策。方法：选取在近两年内在本院接受颅脑外伤治疗并出现躁动行为的患

期刊

颅脑外伤术后躁动的原因针对性护理

缺血性脑卒中二级预防他汀类药物应用状况调查

目的了解缺血性脑卒中患者他汀类药物使用情况,分析影响他汀类药物使用的因素。方法从2014年1~12月连续收住我院神经内科住院的740例缺血性脑卒中患者中,选择360例复发性脑卒

期刊

卒中冠心病降血脂药高脂血症脑缺血发作短暂性

回忆抗战时后方生活

1938年,父亲叶毅在江西南城县工兵训练学校毕业后,分派到湖南长沙第九战区担任少校作战参谋.当时母亲带着我和两岁的弟弟在老家浙江青田躲避战乱.九战区的司令长官原先是陈诚

期刊

司令长官第九战区第六战区薛岳陈诚江防浙江青田洞庭湖

P2P网络环境下自适应的动态信任评估模型

针对类似于P2P文件共享系统的大规模分布式系统中的动态信任评估问题，提出了一种基于遗传算法的自适应的动态信任评估模型．该模型中节点间的信任关系随历史行为及其它相关信任

期刊

P2P网络动态信任评估自适应能力遗传算法peer to peer networks dynamic trust evaluation adaptive

童祥苓:一出戏一辈子

“我这一辈子,没有什么大出息,唯一就是《智取威虎山》,大家记住了杨子荣。”《智取威虎山》是上海京剧院的经典保留剧目,也是京剧舞台上久演不衰的现代戏代表作,由童祥苓饰

期刊

上海京剧院童祥苓《智取威虎山》久演不衰杨子荣孤胆英雄我这一辈子一出戏

腹腔镜肾脏手术需中转为手助腹腔镜或开放手术的风险因素分析

【正】目的:探讨腹腔镜肾脏手术需中转为手助腹腔镜或开放手术的风险因素。材料与方法:回顾性分析了1996年6月至2009年2月之间笔者医院中的759例标准腹腔镜和833例手助腹腔镜

期刊

手辅助腹腔镜手助腹腔镜开放手术肾脏手术肾部分切除术腹腔镜手术风险因素分析肾盂成形术根治性肾切除术材料与方法

Cook宫颈扩张球囊在妊娠晚期促宫颈成熟中的应用效果分析

目的：探讨Cook宫颈扩张球囊在妊娠晚期促宫颈成熟中的应用效果。方法：选取2017年10月-2019年12月我院62例妊娠晚期孕妇为研究对象，随机均分两组，对照组提供缩宫素，观察组提供 Cook

期刊

Cook宫颈扩张球囊妊娠晚期应用效果促宫颈成熟

用于自动化制造系统仿真的一种新颖的实时动画技术

目前国内外普遍采用离散事件系统仿真方法对自动化制造系统进行分析。由于这类系统中一般都具有物料贮运系统，制造过程的离散性及运输设备运动的连续性在系统中并存；采用按用户设定的时间间隔刷新仿真动画画面（目前国内外流行的仿真语言大多采用这种方法），就可能造成数据丢失或画面与模型的不一致性。本文介绍了ＩＭＳＳ仿真软件所采用的一种新颖的实时动画技术，它基于异步─—预报─—检测机制，较好地解决了这一技术难题，专

期刊

自动化制造系统仿真实时动画

采用经验复用的高效强化学习控制方法

与本文相关的学术论文