部分可观测Markov环境下的激励学习综述

来源 :长沙电力学院学报(自然科学版) | 被引量 : 0次 | 上传用户:llz364088963
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对智能体在不确定环境下的学习与规划问题的激励学习技术进行了综述.首先介绍了用于描述隐状态问题的部分可观测Markov决策理论(POMDPs),在简单回顾其它POMDP求解技术后,重点讨论环境模型事先未知的激励学习技术,包括两类:一类为基于状态的值函数学习;一类为策略空间的直接搜索.最后分析了这些方法尚存在的问题,并指出了未来可能的研究方向.
其他文献
盆栽试验选用东农42(高蛋白品种)、合丰25(中间型品种)、东农46(高油品种)3个基因型大豆品种,在每千克土壤施N和K2O各为0.033g基础上,设P0、R、P10、P15 4个P处理(即每kg土壤分别施P20,0
以黄瓜根系离体线粒体为研究对象,观察了盐胁迫对线粒体辅酶Q10(CoQ10)、脂质过氧化物(LPO)、过氧化氢(H2O2)含量和线粒体呼吸功能及其有关酶的影响,以及盐胁迫下添加外源Si后这些指
根据现场运行经验分析西门子变压器有限公司生产的CFZ4-5QSTH型主变保护存在的若干问题:如冷却器全停跳闸回路、操作箱反事故措施、变压器断路器失灵时电压灵敏度问题、非电量
以冬小麦"西农9814"为材料进行大田试验,研究施氮量对小麦产量构成因素、土壤中硝态氮变化的影响。结果表明,适宜施氮量(N 276 kg/hm2)可以显著提高小麦的穗重、穗粒数、千粒重等
土壤微生物量是土壤中植物有效养分的储备库,在土壤肥力和植物营养中具有重要作用[1].我国北方石灰性土壤微生物量磷为P 12.4~15.5μg/g[2],南方红壤的微生物量磷为P 12.2~31.5
通过盆栽试验,研究番茄对酸性黄壤中铅(Pb)的吸收和积累效应.试验结果表明,当土壤中加入不同比例的铅时(0~200mg/kg),基本没有观察到铅对番茄的毒害病症,铅对作物的生长发育没
在温室和实验室进行了施硅对消除或缓解大麦酸害铝毒的土培和溶液培养试验.结果表明,施硅后大麦幼苗的地上部茎、叶和地下部根的生物量均比不施硅明显增加.施硅能有效地促使