采用经验复用的高效强化学习控制方法

来源 :华南理工大学学报(自然科学版) | 被引量 : 0次 | 上传用户:liufengsheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
使用定长情景进行学习的eNAC(episodic Natural Actor-Critic)算法是一种在理论上具有良好学习性能的强化学习控制算法,但其学习过程需要采样较多的定长情景,学习效率低.为此,文中提出了一种新的强化学习控制算法ER-eNAC.该算法在eNAC算法的基础上引入了定长情景复用机制,在自然策略梯度估计过程中,复用部分过去采样的定长情景以更有效地利用经验信息;在使用复用的定长情景时,按照其参与的策略更新次数进行指数递减加权以描述其对当前策略的适用性.倒立摆稳定控制问题的仿真结果表明,与eN
其他文献
由于工程技术领域与社会领域的巨大差异,源自工程技术领域的顶层设计延展至社会领域应用时会出现适用性问题,这需要采用适用于社会运行规律的应用形式和原则。社会领域的顶层
运用文献资料法、问卷调查法等方法对河南省洛宁县河底镇农村初级中学体育教学现状进行研究。结果显示:洛宁县河底镇农村中学学校的体育教育经费所占比例过小,场地以及体育器
目的:研究颅脑外伤患者在手术之后出现躁动行为的原因,并探讨对出现躁动行为的颅脑外伤患者进行护理干预的对策。方法:选取在近两年内在本院接受颅脑外伤治疗并出现躁动行为的患
目的了解缺血性脑卒中患者他汀类药物使用情况,分析影响他汀类药物使用的因素。方法从2014年1~12月连续收住我院神经内科住院的740例缺血性脑卒中患者中,选择360例复发性脑卒
1938年,父亲叶毅在江西南城县工兵训练学校毕业后,分派到湖南长沙第九战区担任少校作战参谋.当时母亲带着我和两岁的弟弟在老家浙江青田躲避战乱.九战区的司令长官原先是陈诚
针对类似于P2P文件共享系统的大规模分布式系统中的动态信任评估问题,提出了一种基于遗传算法的自适应的动态信任评估模型.该模型中节点间的信任关系随历史行为及其它相关信任
“我这一辈子,没有什么大出息,唯一就是《智取威虎山》,大家记住了杨子荣。”《智取威虎山》是上海京剧院的经典保留剧目,也是京剧舞台上久演不衰的现代戏代表作,由童祥苓饰
【正】目的:探讨腹腔镜肾脏手术需中转为手助腹腔镜或开放手术的风险因素。材料与方法:回顾性分析了1996年6月至2009年2月之间笔者医院中的759例标准腹腔镜和833例手助腹腔镜
目的:探讨Cook宫颈扩张球囊在妊娠晚期促宫颈成熟中的应用效果。方法:选取2017年10月-2019年12月我院62例妊娠晚期孕妇为研究对象,随机均分两组,对照组提供缩宫素,观察组提供 Cook
目前国内外普遍采用离散事件系统仿真方法对自动化制造系统进行分析。由于这类系统中一般都具有物料贮运系统,制造过程的离散性及运输设备运动的连续性在系统中并存;采用按用户设定的时间间隔刷新仿真动画画面(目前国内外流行的仿真语言大多采用这种方法),就可能造成数据丢失或画面与模型的不一致性。本文介绍了IMSS仿真软件所采用的一种新颖的实时动画技术,它基于异步─—预报─—检测机制,较好地解决了这一技术难题,专