【摘 要】
:
策略迭代是一种迭代地评估和改进控制策略的强化学习方法.采用最小二乘的策略评估方法可以从经验数据中提取出更多有用信息,提高数据有效性.针对在线的最小二乘策略迭代方法
【机 构】
:
苏州大学计算机科学与技术学院,符号计算与知识工程教育部重点实验室(吉林大学)
论文部分内容阅读
策略迭代是一种迭代地评估和改进控制策略的强化学习方法.采用最小二乘的策略评估方法可以从经验数据中提取出更多有用信息,提高数据有效性.针对在线的最小二乘策略迭代方法对样本数据的利用不充分、每个样本仅使用一次就被丢弃的问题,提出一种批量最小二乘策略迭代算法(BLSPI),并从理论上证明其收敛性.BLSPI算法将批量更新方法与在线最小二乘策略迭代方法相结合,在线保存生成的样本数据,多次重复使用这些样本数据并结合最小二乘方法来更新控制策略.将BLSPI算法用于倒立摆实验平台,实验结果表明,该算法可以有效利用之前的
其他文献
目前存在家庭本位与个人本位的会通趋势:个人本位必须吸收家庭本位的责任和义务意识,使自由与责任、权利与义务达至平衡;个人必须置身于社会特别是家庭之中,才能得到健康发展
风光互补发电系统的设计和运行需要考虑地理位置、气象条件、设备特性和负载要求等因素。目标是合理配置各组件,充分利用两者的互补性,达到提高系统运行可靠性和经济性的目的。
服装设计中图案的设计是一个重要的部分。服装图案的合理搭配可以有效提升服装品质效果,实现服装的艺术价值品质的提升。根据服装设计要求对图案样式进行设计,加强图案的个性
服装图案设计创造性思维是通过对日常生活的细致观察和数据收集,从不同的视角发掘服饰设计灵感,通过多种技巧与方法的整理,创造出带有感情色彩的作品。服装图案的创造性思维具有
阿富汗裔美国作家卡勒德·胡赛尼的处女作《追风筝的人》自2003年发表后广受好评,获得各项新人奖,并跃居美国各大畅销排行榜。该作品目前已被翻译成55种不同语言、在70余个国