多步截断SARSA强化学习算法

来源 :广西工学院学报 | 被引量 : 0次 | 上传用户:ssskstar
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出了一种新的on-policy强化学习算法,其基本思想是按照一定学习策略,利用κ(κ>1)步的信息来估计TD(λ)回报值,从而加快对行动最优值估计的更新.更新速度比SARSA(0)算法快,但不象SARSA(λ)需要大量的计算.
其他文献
清代史学属于中国传统史学研究理论和方法的总结期,同时也是传统史学向近代史学转变的重要阶段,研究这一时期的史学发展有利于加强对传统史学的认识。清代史学的发展状况主要从
如何保证公积金的收缴及规范使用,实现资金的保值增值是住房公积金的财务管理目标。然而,目前实现这一目标存在一定困难,究其原因是公积金的财务运作模式存在问题。笔者认为,通过
研究有限时段非平稳的Markov决策过程的强化学习算法.通过引入一个人工吸收状态,把有限时段问题变为无限时段问题,从而可利用通常的强化学习方法来求解.在文献[3]提出的算法
建设部等九部委联合制定的《关于调整住房供应结构稳定住房价格的意见》(以下称《意见》),对住房建设项目的套型比例做出了硬性规定,即自2006年6月1日起,凡新审批、新开工的商品住
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
我国高职院校内部专业评估及指标体系构建是完善专业教学建设,培养出专业技能型人才的必要举措。专业评估是高职院校教育发展的需要,也是高职教育培养创新型专业技术技能人才
<正> 便秘是临床上常见的症状,给人们的生活带来很多不便,于1995年7~10月,我们应用由华西医科大学研制、四川科创制药公司生产的新药《通泰胶囊》,对46例便秘患者进行治疗观察
上悬式离心机是一种高速旋转大转动惯量的大型设备,由于物料粘稠度、料位高度等发生变化,很容易造成布料不均匀,从而引起设备振动,振动严重时损坏设备造成严重安全事故.本文