基于每阶段平均费用最优的激励学习算法

来源 :计算机应用 | 被引量 : 4次 | 上传用户:asd_012
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文中利用求解最优费用函数的方法给出了一种新的激励学习算法 ,即基于每阶段平均费用最优的激励学习算法。这种学习算法是求解信息不完全Markov决策问题的一种有效激励学习方法 ,它从求解分阶段最优平均费用函数的方法出发 ,分析了最优解的存在性、分阶段最优平均费用函数与初始状态的关系以及与之相关的Bellman方程。这种方法的建立 ,可以使得动态规划 (DP)算法中的许多结论直接应用到激励学习的研究中来
其他文献
文中针对一个实际证书及密钥管理系统,对证书编码进行了详细描述和分析,并从应用角度对实现方法作了讨论。
介绍了程序切片技术的基本概念,提出了一种基于前向分析的动态程序切片算法,探讨了程序切片在软件测试数据生成中的应用,结果表明可以有效地提高基于路径的测试数据生成效率。
骨转移是晚期恶性肿瘤常见的并发症。可引起剧烈的骨痛、功能活动障碍甚至病理性骨折,严重地影响了患者的生存质量.而常规化疗、放疗及一般止痛药物作用有限.尤其对多发性骨转移
The history of Formula conferences was summarized with a particular focus on Formula I and Formula Ⅸ (the first and last conferences of the series).The foundat
我从小喜欢踢球。从小皮球、小足球一直踢到大足球,一直到踢不动足球、爱踢者必定爱看球,我是个十足的球迷。前几年逢到重要球赛,常常换三次挤得要命的公共汽车,去北京工人体
目的 分析中药注射剂不良反应(ADR)发生的特点及规律.方法 对我院1996年至2006年6月期间,中药注射剂所致ADR临床报表进行评价和分析.结果 110份ADR报表,涉及患者110例,17种中
针对目前PDM中的数据恢复方法的缺陷,提出一种基于个人恢复区的前台数据恢复机制。该方法通过为后台数据库中的文档类和零部件类等对象增加标记属性,并在数据库中设计用于记录待恢复数据信息的恢复区对象,来方便地实现文档和零部件等数据的前台恢复,在此基础上开发一个个人恢复区功能模块。
通过体育课教学实践,合理应用各种身体素质的练习手段,从而达到发展身体素质,增强体质的目的.
UML是最广泛使用的面向对象建模语言,在实时系统中也得到了普遍的应用。不同的公司对UML在实时系统中的应用进行了不同的扩展。但是,OMG没有把任何一种扩展作为标准。文中将通过应用和研究对IBMRational的B.Selic提出的UML/Realtime进行进一步的扩展,用一个航空电子系统中的例子详细说明扩展的意义和结果。