非参数化近似策略迭代并行强化学习算法

来源 :计算机工程 | 被引量 : 0次 | 上传用户：jingjong

【摘要】

：

针对在线近似策略迭代强化学习算法收敛速度较慢的问题,提出一种非参数化近似策略迭代并行强化学习算法。通过学习单元构建样本采集过程确定并行单元数量,基于径向基函数线性

【作者】

：

季挺张华

【机构】

：

南昌大学江西省机器人与焊接自动化重点实验室

【出处】

：

计算机工程

【发表日期】

：

2018年11期

【关键词】

：

并行强化学习非参数化策略迭代 K均值聚类倒立摆 parallel reinforcement learningnonparametricstrategy

【基金项目】

：

国家高技术研究发展计划(SS2013AA041003)

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对在线近似策略迭代强化学习算法收敛速度较慢的问题,提出一种非参数化近似策略迭代并行强化学习算法。通过学习单元构建样本采集过程确定并行单元数量,基于径向基函数线性逼近结构设计强化学习单元,然后采用以样本空间完全覆盖为目标的估计方法实现单元自主构建,并基于近似策略迭代进行单元自主学习。其中,各单元通过平均加权法融合得到算法的整体策略。一级倒立摆仿真结果表明,与online LSPI算法和BLSPI算法相比,该算法在保持较高加速比的同时具有较高的效率,其控制参数更少,收敛速度更快。

其他文献

诗歌语言思维中的"无理而妙"

《普通高中语文课程标准(2017年版)》把"思维发展与提升" 作为学科四大核心素养之一,以此为出发点,在诗歌教学中,我引导学生梳理探究, 让他们总结这种诗歌语言的规律,学会应

期刊

核心素养诗歌教学无理而妙诗歌语言举一反三梳理探究思维发展与提升高中语文课程标准

美国历史上的西部大开发

期刊

美国西部开发启示政策支持创新精神人才

父母老了同样需要亲昵

我的父亲是军队的一名干部，母亲原是一名中学教师，两人今年均已68岁。父亲是个老正统，平时我和妹妹烫个头，他都看不顺眼。也许是认为自己年纪大了，怕被儿女笑话与母亲同住是“老来

期刊

中学教师父亲母亲

当代大学生人生价值观述评

当代大学生人生价值观主流稳定、健康、积极向上、求真务实 ,与爱国主义、集体主义、社会主义主旋律一致 ;价值取向继续向多元化发展 ;消极心理情绪依然存在 ,部分学生倾向于

期刊

当代大学生人生价值观评价

对乐都县职业教育发展的思考

党的十七大提出,我国要进一步调整产业结构,着力实施以创业带动就业的民生工程,全面建设社会主义新农村,加快工业化、城镇化建设的进程。这一系列的战略部署无不与职业教育密

期刊

职业教育发展乐都县建设社会主义新农村调整产业结构城镇化建设工业化县政府

用[实]默默耕耘:记阿坝州州长王雨顺

期刊

人物传记王雨顺阿坝州长藏族人

耦合元胞自动机的尾气排放规律数值模拟

为分析城市道路实际交通条件下汽车尾气的排放规律,对元胞自动机的MCD模型和STCA模型进行改进,构建一种基于速度-加速度查询表耦合交通流元胞自动机的汽车尾气排放量统计模型

期刊

城市道路元胞自动机速度-加速度查询表工况分布尾气排放规律urban roadcellular automatonspeed-acceleration

鼻腔——“给药的窗口”

用鼻“服”药，由来已久。早在东汉末年，医圣张仲景在《伤寒杂病论》中就有治寒湿之证用塞鼻疗法的记载；我国古代医生还常以药末入鼻取嚏以开窍，用于病人的急救；或者用麻黄煎汁滴鼻

期刊

鼻腔《伤寒杂病论》窗口给药东汉末年塞鼻疗法《诗经》《离骚》张仲景麻黄煎

挖掘习题功能发展数学思维

新的数学课程理念要求教师积极探索课堂教学方式，转变教学观念，加深对教材的理解和把握。课本中的习题作为教材的必要组成部分，其重要性不言而喻，但一些教师却不注重充分挖掘其功

期刊

数学思维品质习题功能挖掘课堂教学方式教材知识课本习题课程理念教学观念

打造三位一体和谐教育体系探索中小学德育教育最佳途径《和谐成长》课题“落户”青海师范大学附属第二中学

2007年10月26日下午，青海师范大学附属第二中学召开了全国教育科学“十一五”规划重点国家课题《和谐成长》教材启用仪式暨德育工作导师聘请大会。

期刊

青海师范大学教育体系和谐三位一体德育教育中学课题中小学

非参数化近似策略迭代并行强化学习算法

与本文相关的学术论文