【摘 要】
:
策略迭代是一种迭代地评估和改进控制策略的强化学习方法.采用最小二乘的策略评估方法可以从经验数据中提取出更多有用信息,提高数据有效性.针对在线的最小二乘策略迭代方法
【机 构】
:
苏州大学计算机科学与技术学院,符号计算与知识工程教育部重点实验室(吉林大学)
论文部分内容阅读
策略迭代是一种迭代地评估和改进控制策略的强化学习方法.采用最小二乘的策略评估方法可以从经验数据中提取出更多有用信息,提高数据有效性.针对在线的最小二乘策略迭代方法对样本数据的利用不充分、每个样本仅使用一次就被丢弃的问题,提出一种批量最小二乘策略迭代算法(BLSPI),并从理论上证明其收敛性.BLSPI算法将批量更新方法与在线最小二乘策略迭代方法相结合,在线保存生成的样本数据,多次重复使用这些样本数据并结合最小二乘方法来更新控制策略.将BLSPI算法用于倒立摆实验平台,实验结果表明,该算法可以有效利用之前的
其他文献
春天,在45万新洲百姓生动的笑脸里;春天,在50万平方公里的新洲热土上;春天,在160名新洲长源人的心里。中国水务集团在新洲长源水司,用一笔水务蓝,绘一幅春天的明媚图景,让清
目前存在家庭本位与个人本位的会通趋势:个人本位必须吸收家庭本位的责任和义务意识,使自由与责任、权利与义务达至平衡;个人必须置身于社会特别是家庭之中,才能得到健康发展
文章对高TC氧化物超导体是否为费米液体问题作一评述。文中以五条标准作为费米液体的定义,就电阻率,霍耳效应,温差电势率,核磁驰豫,正电子湮灭,光电发射谱等一系列现象中出现的有关问
风光互补发电系统的设计和运行需要考虑地理位置、气象条件、设备特性和负载要求等因素。目标是合理配置各组件,充分利用两者的互补性,达到提高系统运行可靠性和经济性的目的。
服装设计中图案的设计是一个重要的部分。服装图案的合理搭配可以有效提升服装品质效果,实现服装的艺术价值品质的提升。根据服装设计要求对图案样式进行设计,加强图案的个性
偿付能力监管是保险监管的核心。目前,我国保险公司在偿付能力监管方面存在制度性与技术性障碍。因此,借鉴发达国家经验,提升我国保险公司偿付能力监管水平是当务之急。
5月25日,由中国人民银行和江苏省人民政府联合主办的全国金融知识展览南京巡展在南京文化艺术中心隆重开幕了。这是继北京、上海、重庆、成都、广州、武汉之后,中国人民银行
本文在深入考察东北三省大型金融机构提供农村金融服务实践的基础上,运用机制设计理论对大型金融机构服务“三农”问题展开深入研究,对其存在的机制缺陷进行了全面剖析,并提
服装图案设计创造性思维是通过对日常生活的细致观察和数据收集,从不同的视角发掘服饰设计灵感,通过多种技巧与方法的整理,创造出带有感情色彩的作品。服装图案的创造性思维具有
阿富汗裔美国作家卡勒德·胡赛尼的处女作《追风筝的人》自2003年发表后广受好评,获得各项新人奖,并跃居美国各大畅销排行榜。该作品目前已被翻译成55种不同语言、在70余个国