基于每阶段平均费用最优的激励学习算法

来源 :计算机应用 | 被引量 : 4次 | 上传用户：asd_012

【摘要】

：

文中利用求解最优费用函数的方法给出了一种新的激励学习算法 ,即基于每阶段平均费用最优的激励学习算法。这种学习算法是求解信息不完全Markov决策问题的一种有效激励学习方法 ,它从求解分阶段最优平均费用函数的方法出发 ,分析了最优解的存在性、分阶段最优平均费用函数与初始状态的关系以及与之相关的Bellman方程。这种方法的建立 ,可以使得动态规划 (DP)算法中的许多结论直接应用到激励学习的研究中来

【作者】

：

殷苌茗陈焕文谢丽娟

【机构】

：

长沙电力学院数学与计算机系

【出处】

：

计算机应用

【发表日期】

：

2002年04期

【关键词】

：

Q学习最优平均费用函数 Bellman方程智能体激励学习算法人工智能 reinforcement learning Qlearning optimal

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

证书编解码及其实现方法

文中针对一个实际证书及密钥管理系统，对证书编码进行了详细描述和分析，并从应用角度对实现方法作了讨论。

期刊

证书密钥管理编码解码INTERNET公开密钥基础设施

一种用于测试数据生成的动态程序切片算法

介绍了程序切片技术的基本概念,提出了一种基于前向分析的动态程序切片算法,探讨了程序切片在软件测试数据生成中的应用,结果表明可以有效地提高基于路径的测试数据生成效率。

期刊

程序切片测试数据生成前向分析动态程序切片算法program slicing test data generation forward analysis

降钙素治疗骨转移癌的疗效观察

骨转移是晚期恶性肿瘤常见的并发症。可引起剧烈的骨痛、功能活动障碍甚至病理性骨折，严重地影响了患者的生存质量．而常规化疗、放疗及一般止痛药物作用有限．尤其对多发性骨转移

期刊

骨转移癌降钙素疗效观察治疗晚期恶性肿瘤多发性骨转移住院患者病理性骨折活动障碍常规化疗

Retrospect and prospect: 30 years of Formula conferences!

The history of Formula conferences was summarized with a particular focus on Formula I and Formula Ⅸ (the first and last conferences of the series).The foundat

期刊

FORMULATIONEngineeringPRODUCTFORMULAconferences

希望有这样的球类解说员

我从小喜欢踢球。从小皮球、小足球一直踢到大足球,一直到踢不动足球、爱踢者必定爱看球,我是个十足的球迷。前几年逢到重要球赛,常常换三次挤得要命的公共汽车,去北京工人体

期刊

北京工人体育场者必前几带球比赛过程呼喊声高出一筹欣赏水平实况转播欣赏能力

Particle mixing rates using the two-fluid model

期刊

素模型混合率液体计算结果粒子模拟技术连续性方程实验室规模Gas-solid fluidized bedSimulationTwo-fluid m

110例中药注射剂不良反应分析

目的分析中药注射剂不良反应(ADR)发生的特点及规律.方法对我院1996年至2006年6月期间,中药注射剂所致ADR临床报表进行评价和分析.结果 110份ADR报表,涉及患者110例,17种中

期刊

中药注射剂不良反应分析

PDM中基于个人恢复区的前台数据恢复机制

针对目前PDM中的数据恢复方法的缺陷,提出一种基于个人恢复区的前台数据恢复机制。该方法通过为后台数据库中的文档类和零部件类等对象增加标记属性,并在数据库中设计用于记录待恢复数据信息的恢复区对象,来方便地实现文档和零部件等数据的前台恢复,在此基础上开发一个个人恢复区功能模块。

期刊

PDM数据恢复个人恢复区PDMdata resumepersonal recycling region

体育教学中的身体素质练习

通过体育课教学实践,合理应用各种身体素质的练习手段,从而达到发展身体素质,增强体质的目的.

期刊

体育教学、身体素质、应用P.E. teachingphysical fitnessapplication

UML在实时软件系统中的应用研究

UML是最广泛使用的面向对象建模语言,在实时系统中也得到了普遍的应用。不同的公司对UML在实时系统中的应用进行了不同的扩展。但是,OMG没有把任何一种扩展作为标准。文中将通过应用和研究对IBMRational的B.Selic提出的UML/Realtime进行进一步的扩展,用一个航空电子系统中的例子详细说明扩展的意义和结果。

期刊

UML实时系统构造型封装体协议端口状态机UML real-time system stereotype capsule protocol port

基于每阶段平均费用最优的激励学习算法

与本文相关的学术论文