平均准则TD策略迭代算法

来源 :中国运筹学会第六届学术交流会 | 被引量 : 0次 | 上传用户:wyq0221
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文考虑平均堆则模型马氏决策过程的一种改进的策略迭算法—即时差分(TD)策略迭代法。通过引入所谓即时差分的概念,将传统的策略迭代算法的策略赋值步改进为近似策略赋值,相当于将值迭代算法与策略迭代算法进行了折中。最后对所给的TD策略迭代算法的收敛性进行了讨论。
其他文献
用氨基酸分析法测定了粘虫在马桑毒素作用下体内γ-氨基丁酸(GA-BA)及谷氨酸(Glu)含量的变化。结果表明,Glu较对照下降6℅~12℅,GABA的相对含量持续增长。即CL在试虫体内可能干
8月23日下午,2020人工智能与创新教育思享汇暨第二届湖南省机器人与人工智能后备人才培养论坛在长沙举行.本次活动内容丰富、大咖云集,不仅有全能AI机器人云端挑战赛、智慧教
期刊
一车滑出县城的时候,李晓清紧绷的神经松弛了下来,畅快地舒了一口气。过去不开车的时候,总感觉县城的马路好宽。一个人走在马路中间,也没见后面有“嘟嘟”的车喇叭催促。现在
Q88888强子是被一阵萨克斯声吵醒的。窗外隔条马路是湖湘公园,每天早晨九点,只要不是天气太坏,都有一支萨克斯准时吹响。这支萨克斯在公园练习将近两年,强子以前工作忙出门早
会议