一种有限时段Markov决策过程的强化学习算法

来源 :广西工学院学报 | 被引量 : 0次 | 上传用户：weipan51

【摘要】

：

研究有限时段非平稳的Markov决策过程的强化学习算法.通过引入一个人工吸收状态,把有限时段问题变为无限时段问题,从而可利用通常的强化学习方法来求解.在文献[3]提出的算法

【作者】

：

李春贵刘永信

【机构】

：

广西工学院计算机系,内蒙古大学自动化系

【出处】

：

广西工学院学报

【发表日期】

：

2003年1期

【关键词】

：

强化学习有限时段 MARKOV决策过程无完全模型库存控制机器学习非平稳 reinforcementlearning Markov decision p

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

研究有限时段非平稳的Markov决策过程的强化学习算法.通过引入一个人工吸收状态,把有限时段问题变为无限时段问题,从而可利用通常的强化学习方法来求解.在文献[3]提出的算法思想基础上,提出了一种新的有限时段非平稳的Markov决策过程的强化学习算法,并用无完全模型的库存控制问题进行了实验.

其他文献

个人医保账户的前世今生

ue＊M＃’＃dkB4＃＃8＃”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:（100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技

期刊

城乡居民医保互助共济门诊统筹医疗保障制度城镇居民医保新农合门诊医疗国家医保局

中西医结合治疗腰椎间盘突出症疗效观察

期刊

中西医结合治疗腰椎间盘突出症疗效观察

沥青路面施工质量控制中数理统计技术的应用

由于沥青路面施工属于连续大批量的生产过程，要求质量与性能指标在施工过程中均处于一定的范围，通过引入数理统计技术，建立更为科学的质量控制和管理方法。针对影响施工质量的各

期刊

数理统计技术正态分布函数沥青路面施工质量控制

2004年浙江省审定通过的水稻品种

1.嘉早324系浙江省嘉兴市农科院育成的早籼稻品种,属中熟偏迟的食用优质早籼.亲本来源:嘉早935/Z9538//Z9610///Z9610/Z9510.2002～2003年浙江省早籼稻区试,平均单产450.9千克/

期刊

2004年浙江审定水稻嘉早324品种浙鉴21品种浙103品种浙106品种特征特性

企业联盟期权价值影响因素的实证研究

企业联盟这一组织形式介于市场安排和企业组织之间,是处于竞争环境中的企业为达成特定目的而走出自身资源、能力和经营领域限制,通过共享、合作和分担来实现对外部资源的整合

学位

企业战略联盟实物期权联盟期权影响因素并购战略

晶甜6号甜玉米

审定编号：苏审玉201306。由南京市蔬菜研究所于2008年育成,属早熟半紧凑型甜玉米,适宜江苏省各地种植。出苗整齐，叶鞘绿色，叶片绿色，叶缘绿色。株型半紧凑，花药黄色。颖壳绿色，花丝

期刊

甜玉米蔬菜研究所南京市紧凑型江苏省育成配组早熟

大家谈“一带一路”

期刊

“一带一路”包容性意大利“一带一路”倡议新开发银行互联互通基础设施建设全球化

企业货币资金的管理

企业货币资金是一项重要的管理内容.在遵守国家有关法规的前提下,企业有必要制定具体规则强化资金管理.遵循钱账分管原则,现金及银行存款结算办法,建立备用金制度,充分运用票

期刊

企业货币资金管理

清代史学的发展状况及其原因

清代史学属于中国传统史学研究理论和方法的总结期，同时也是传统史学向近代史学转变的重要阶段，研究这一时期的史学发展有利于加强对传统史学的认识。清代史学的发展状况主要从

期刊

清代史学史馆制度经世致用私家修史

住房公积金财务运作模式之创新

如何保证公积金的收缴及规范使用，实现资金的保值增值是住房公积金的财务管理目标。然而，目前实现这一目标存在一定困难，究其原因是公积金的财务运作模式存在问题。笔者认为，通过

期刊

财务管理目标住房公积金运作创新规范使用保值增值有效解资金

一种有限时段Markov决策过程的强化学习算法

与本文相关的学术论文