平均准则TD策略迭代算法

来源 :中国运筹学会第六届学术交流会 | 被引量 : 0次 | 上传用户：wyq0221

【摘要】

：

该文考虑平均堆则模型马氏决策过程的一种改进的策略迭算法—即时差分(TD)策略迭代法。通过引入所谓即时差分的概念，将传统的策略迭代算法的策略赋值步改进为近似策略赋值，相当

【作者】

：

胡光华

【机构】

：

云南大学数学系(云南昆明)

【出处】

：

中国运筹学会第六届学术交流会

【发表日期】

：

2001年1期

【关键词】

：

马氏决策过程平均准则即时差分

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

该文考虑平均堆则模型马氏决策过程的一种改进的策略迭算法—即时差分(TD)策略迭代法。通过引入所谓即时差分的概念，将传统的策略迭代算法的策略赋值步改进为近似策略赋值，相当于将值迭代算法与策略迭代算法进行了折中。最后对所给的TD策略迭代算法的收敛性进行了讨论。

其他文献

马麝隔离种群的生态研究

会议

马麝隔离种群种群生态

1.9埃分辨率R-藻红蛋白中色素分子的结构与功能

会议

分辨率藻红蛋白色素分子结构

抑食肼对菜青虫的生理影响

会议

抑食肼菜青虫

马桑毒素B对试虫体内GABA及Glu含量的影响

用氨基酸分析法测定了粘虫在马桑毒素作用下体内γ-氨基丁酸(GA-BA)及谷氨酸(Glu)含量的变化。结果表明，Glu较对照下降6℅～12℅，GABA的相对含量持续增长。即CL在试虫体内可能干

会议

马桑毒素体内相对含量中枢神经正常代谢神经递质干扰毒素作用持续增长氨基丁酸抑制性谷氨酸分析法氨基酸粘虫传导测定

折扣－平均混合准则下的向量值ＭＤＰ

会议

折扣混合准则

亮氨酸拉链一级序列与四级结构的关系

会议

亮氨酸拉链

关于AI教育,r大咖这样说r——2020人工智能与创新教育思享汇暨第二届湖南省机器人与人工智能后备人才培养论坛纪实

8月23日下午,2020人工智能与创新教育思享汇暨第二届湖南省机器人与人工智能后备人才培养论坛在长沙举行.本次活动内容丰富、大咖云集,不仅有全能AI机器人云端挑战赛、智慧教

期刊

一天到晚

一车滑出县城的时候,李晓清紧绷的神经松弛了下来,畅快地舒了一口气。过去不开车的时候,总感觉县城的马路好宽。一个人走在马路中间,也没见后面有“嘟嘟”的车喇叭催促。现在

期刊

县城乌龟神经喇叭

昨日重现

Q88888强子是被一阵萨克斯声吵醒的。窗外隔条马路是湖湘公园,每天早晨九点,只要不是天气太坏,都有一支萨克斯准时吹响。这支萨克斯在公园练习将近两年,强子以前工作忙出门早

期刊

萨克斯公园强子准时音乐天气练习湖湘隔条父母

我国马氏钳蝎神经多肽的研究

会议

马氏钳蝎

平均准则TD策略迭代算法

与本文相关的学术论文