基于粒子滤波的直接策略搜索强化学习算法研究

来源 :江苏科技信息 | 被引量 : 0次 | 上传用户:wangbenny918
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
直接策略搜索强化学习算法的一个主要问题是只执行局部搜索,趋向于收敛到一些局部次优解,因此不能保证收敛到全局最优。文章提出的是一种直接政策搜索强化学习的全局搜索算法,不会陷入局部最优。实验结果表明了RLPF在策略空间探索的有效性,能够在策略空间直接进行全局搜索。
其他文献
一直以来,国内的汽修培训市场真可谓红红火火,各类培训班令人目不暇接,这无疑是想学技术的汽修人的福音。但事物总是有其两面性,可供选择的机会多了,先不说是否真的能学到本
方程式3000(F3000/Formula 3000) 3 L方程式汽车赛是方程式汽车场地比赛项目之一,设有国际大奖赛等比赛。使用的赛车是四轮外露的单座位纯跑道用方程式赛车,装备8气缸、排量
一辆丰田4500吉普车,因挂上前驱动后驾车别劲,底盘有异响而送修。路试时发现,该车如不挂前驱动,底盘一切正常;挂上前驱动后,行车中确有别劲的感觉,而且前、后桥均有异响。行
由于安全气囊的保护而在车祸中幸免于难的人,都应该感谢一位已退休的美国机械工程师——赫曲克(JohnW·Hotrich)先生,安全气囊的发明人。当今全球广泛应用的几百万个安全
1983年,著名的吉普家族中增添了一个新成员,设计人员将其命名为切诺基。它取自美国田纳西州一个印第安部落酋长的名字。至今这个酋长的'光辉形象'还挂在吉普的发源地
1特征特性高迪(金皮)西葫芦又称香蕉西葫芦、珍珠西葫芦,原产于以色列,为杂交一代品种,生长势强,无限生长类型,主蔓结瓜,蔓长可达1m;坐果率高,单株结瓜可达10个以上,丰产抗病,果实皮色金
2005年9月1日由中华人民共和国商务部联合公安部、国家工商总局国家税务总局等有关部门下发的新《二手车流通管理办法》(以下简称《办法》)将在10月1日正式施行。此次办法在诸
有点"郁闷"!长期教学小学中高年段的我不知道为什么偏偏要选择去上一节二年级的公开课。虽然我的导师李惠珍老师表扬我是想挑战自我,寻求突破;然而说实话,我真不清楚自己内心深
中国经济迈入新常态发展阶段,驱动经济增长的因素正在发生显著变化,消费对经济的推动作用日趋重要。文章基于改革开放至今公共财政支出与城乡居民消费的统计数据,利用VAR模型
目的:了解医学类学生对医疗类辐射的认知情况,旨在今后的临床工作中正确开出合理安全的检查单,让病人在安全合理的范围内进行辐射检查。方法:通过调查问卷的方式对新疆医科大