切换导航
文档转换
企业服务
Action
Another action
Something else here
Separated link
One more separated link
vip购买
不 限
期刊论文
硕博论文
会议论文
报 纸
英文论文
全文
主题
作者
摘要
关键词
搜索
您的位置
首页
期刊论文
多步截断SARSA强化学习算法
多步截断SARSA强化学习算法
来源 :广西工学院学报 | 被引量 : 0次 | 上传用户:ssskstar
【摘 要】
:
提出了一种新的on-policy强化学习算法,其基本思想是按照一定学习策略,利用κ(κ>1)步的信息来估计TD(λ)回报值,从而加快对行动最优值估计的更新.更新速度比SARSA(0)算法快,
【作 者】
:
李春贵
林海涛
刘永信
【机 构】
:
广西工学院计算机系,内蒙古大学自动化系
【出 处】
:
广西工学院学报
【发表日期】
:
2002年1期
【关键词】
:
强化学习
MARKOV决策过程
Q学习
SQRSA学习
机器学习
多步截断SARSA强化学习算法
reinforcement learningMDPsQlear
下载到本地 , 更方便阅读
下载此文
赞助VIP
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出了一种新的on-policy强化学习算法,其基本思想是按照一定学习策略,利用κ(κ>1)步的信息来估计TD(λ)回报值,从而加快对行动最优值估计的更新.更新速度比SARSA(0)算法快,但不象SARSA(λ)需要大量的计算.
其他文献
清代史学的发展状况及其原因
清代史学属于中国传统史学研究理论和方法的总结期,同时也是传统史学向近代史学转变的重要阶段,研究这一时期的史学发展有利于加强对传统史学的认识。清代史学的发展状况主要从
期刊
清代史学
史馆制度
经世致用
私家修史
住房公积金财务运作模式之创新
如何保证公积金的收缴及规范使用,实现资金的保值增值是住房公积金的财务管理目标。然而,目前实现这一目标存在一定困难,究其原因是公积金的财务运作模式存在问题。笔者认为,通过
期刊
财务管理目标
住房公积金
运作
创新
规范使用
保值增值
有效解
资金
一种有限时段Markov决策过程的强化学习算法
研究有限时段非平稳的Markov决策过程的强化学习算法.通过引入一个人工吸收状态,把有限时段问题变为无限时段问题,从而可利用通常的强化学习方法来求解.在文献[3]提出的算法
期刊
强化学习
有限时段
MARKOV决策过程
无完全模型
库存控制
机器学习
非平稳
reinforcementlearning Markov decision p
户型面积比例限制对行业的影响分析
建设部等九部委联合制定的《关于调整住房供应结构稳定住房价格的意见》(以下称《意见》),对住房建设项目的套型比例做出了硬性规定,即自2006年6月1日起,凡新审批、新开工的商品住
期刊
户型面积
行业
比例
面积90平方米
住房建设
经济适用住房
结构稳定
建设项目
建设部
套型
基于自组织临界性的城市交通路网承载力计算方法研究
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
学位
路网承载力
自组织临界性
路网状态
模糊C-均值聚类
交通密度
论高职院校内部专业评估及指标体系构建的思考
我国高职院校内部专业评估及指标体系构建是完善专业教学建设,培养出专业技能型人才的必要举措。专业评估是高职院校教育发展的需要,也是高职教育培养创新型专业技术技能人才
期刊
高职院校
专业评估
指标体系
思考
通泰胶囊临床疗效观察
<正> 便秘是临床上常见的症状,给人们的生活带来很多不便,于1995年7~10月,我们应用由华西医科大学研制、四川科创制药公司生产的新药《通泰胶囊》,对46例便秘患者进行治疗观察
期刊
通泰胶囊
药理
疗效
上悬式离心机振动检测保护装置设计
上悬式离心机是一种高速旋转大转动惯量的大型设备,由于物料粘稠度、料位高度等发生变化,很容易造成布料不均匀,从而引起设备振动,振动严重时损坏设备造成严重安全事故.本文
期刊
上悬式离心机
振动检测保护装置
设计
加速度
物质分离机械
vibrationaccelerationexamine
中西医结合治疗急性肾功能衰竭
期刊
急性
肾功能衰竭
中西医结合治疗
黑木耳仿生栽培新技术
期刊
操作技术
选种
日常管理
黑木耳
仿生栽培
与本文相关的学术论文