【摘 要】
:
针对在线近似策略迭代强化学习算法收敛速度较慢的问题,提出一种非参数化近似策略迭代并行强化学习算法。通过学习单元构建样本采集过程确定并行单元数量,基于径向基函数线性
【机 构】
:
南昌大学江西省机器人与焊接自动化重点实验室
【基金项目】
:
国家高技术研究发展计划(SS2013AA041003)
论文部分内容阅读
针对在线近似策略迭代强化学习算法收敛速度较慢的问题,提出一种非参数化近似策略迭代并行强化学习算法。通过学习单元构建样本采集过程确定并行单元数量,基于径向基函数线性逼近结构设计强化学习单元,然后采用以样本空间完全覆盖为目标的估计方法实现单元自主构建,并基于近似策略迭代进行单元自主学习。其中,各单元通过平均加权法融合得到算法的整体策略。一级倒立摆仿真结果表明,与online LSPI算法和BLSPI算法相比,该算法在保持较高加速比的同时具有较高的效率,其控制参数更少,收敛速度更快。
其他文献
《普通高中语文课程标准(2017年版)》把"思维发展与提升" 作为学科四大核心素养之一,以此为出发点,在诗歌教学中,我引导学生梳理探究, 让他们总结这种诗歌语言的规律,学会应
我的父亲是军队的一名干部,母亲原是一名中学教师,两人今年均已68岁。父亲是个老正统,平时我和妹妹烫个头,他都看不顺眼。也许是认为自己年纪大了,怕被儿女笑话与母亲同住是“老来
当代大学生人生价值观主流稳定、健康、积极向上、求真务实 ,与爱国主义、集体主义、社会主义主旋律一致 ;价值取向继续向多元化发展 ;消极心理情绪依然存在 ,部分学生倾向于
党的十七大提出,我国要进一步调整产业结构,着力实施以创业带动就业的民生工程,全面建设社会主义新农村,加快工业化、城镇化建设的进程。这一系列的战略部署无不与职业教育密
为分析城市道路实际交通条件下汽车尾气的排放规律,对元胞自动机的MCD模型和STCA模型进行改进,构建一种基于速度-加速度查询表耦合交通流元胞自动机的汽车尾气排放量统计模型
用鼻“服”药,由来已久。早在东汉末年,医圣张仲景在《伤寒杂病论》中就有治寒湿之证用塞鼻疗法的记载;我国古代医生还常以药末入鼻取嚏以开窍,用于病人的急救;或者用麻黄煎汁滴鼻
新的数学课程理念要求教师积极探索课堂教学方式,转变教学观念,加深对教材的理解和把握。课本中的习题作为教材的必要组成部分,其重要性不言而喻,但一些教师却不注重充分挖掘其功
2007年10月26日下午,青海师范大学附属第二中学召开了全国教育科学“十一五”规划重点国家课题《和谐成长》教材启用仪式暨德育工作导师聘请大会。