部分可观测Markov环境下的激励学习综述

来源 :长沙电力学院学报(自然科学版) | 被引量 : 0次 | 上传用户：llz364088963

【摘要】

：

对智能体在不确定环境下的学习与规划问题的激励学习技术进行了综述.首先介绍了用于描述隐状态问题的部分可观测Markov决策理论(POMDPs),在简单回顾其它POMDP求解技术后,重点

【作者】

：

谢丽娟陈焕文

【机构】

：

湖南师范大学心理学系,长沙电力学院数学与计算机系

【出处】

：

长沙电力学院学报(自然科学版)

【发表日期】

：

2002年2期

【关键词】

：

激励学习部分可观测Markov决策过程机器学习人工智能智能体值函数学习策略空间 reinforcement learning(RL) partial

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

对智能体在不确定环境下的学习与规划问题的激励学习技术进行了综述.首先介绍了用于描述隐状态问题的部分可观测Markov决策理论(POMDPs),在简单回顾其它POMDP求解技术后,重点讨论环境模型事先未知的激励学习技术,包括两类:一类为基于状态的值函数学习;一类为策略空间的直接搜索.最后分析了这些方法尚存在的问题,并指出了未来可能的研究方向.

其他文献

磷素水平对不同大豆品种叶片及子粒谷氨酰胺合成酶活性的影响

盆栽试验选用东农42（高蛋白品种）、合丰25（中间型品种）、东农46（高油品种）3个基因型大豆品种，在每千克土壤施N和K2O各为0．033g基础上，设P0、R、P10、P15 4个P处理（即每kg土壤分别施P20，0

期刊

大豆磷素水平谷氨酰胺合成酶活性soybean phosphorus level GS activities

硅对盐胁迫下黄瓜根系线粒体呼吸作用及脂质过氧化的影响

以黄瓜根系离体线粒体为研究对象，观察了盐胁迫对线粒体辅酶Q10（CoQ10）、脂质过氧化物（LPO）、过氧化氢（H2O2）含量和线粒体呼吸功能及其有关酶的影响，以及盐胁迫下添加外源Si后这些指

期刊

黄瓜盐胁迫外源Si线粒体呼吸作用cucumber salt stress exogenous silicon mitochondria res

CFZ4—5QSTH型主变保护的改进

根据现场运行经验分析西门子变压器有限公司生产的CFZ4-5QSTH型主变保护存在的若干问题：如冷却器全停跳闸回路、操作箱反事故措施、变压器断路器失灵时电压灵敏度问题、非电量

期刊

主变保护冷却器非电量保护改进措施main transformer protection condenser non-electricity pro

施氮量对冬小麦产量的影响及土壤硝态氮运转特性

以冬小麦＂西农9814＂为材料进行大田试验,研究施氮量对小麦产量构成因素、土壤中硝态氮变化的影响。结果表明,适宜施氮量（N 276 kg/hm2）可以显著提高小麦的穗重、穗粒数、千粒重等

期刊

施氮量产量硝态氮冬小麦nitrogen application rate grain yield NO-3-N winter wheat

黄土高原旱地长期轮作与施肥土壤微生物量磷的变化

土壤微生物量是土壤中植物有效养分的储备库,在土壤肥力和植物营养中具有重要作用[1].我国北方石灰性土壤微生物量磷为P 12.4～15.5μg/g[2],南方红壤的微生物量磷为P 12.2～31.5

期刊

土壤微生物量轮作施肥磷黄土高原旱地

番茄对酸性黄壤中铅的吸收特性与富集效果

通过盆栽试验,研究番茄对酸性黄壤中铅(Pb)的吸收和积累效应.试验结果表明,当土壤中加入不同比例的铅时(0～200mg/kg),基本没有观察到铅对番茄的毒害病症,铅对作物的生长发育没

期刊

番茄酸性黄壤铅吸收效应富集率tomato acid yellow soil characteristics of absorption lead

硅对大麦铝毒的消除和缓解作用研究

在温室和实验室进行了施硅对消除或缓解大麦酸害铝毒的土培和溶液培养试验.结果表明,施硅后大麦幼苗的地上部茎、叶和地下部根的生物量均比不施硅明显增加.施硅能有效地促使

期刊

硅大麦铝毒消除作用作用机理铝硅到复分离子酸性土壤土壤改良缓解作用silicon barley aluminum toxicity

部分可观测Markov环境下的激励学习综述

其他学术论文