马尔可夫决策问题的关键状态优先学习算法

来源 :中国管理信息化 | 被引量 : 0次 | 上传用户:wheatsnow
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对传统强化学习算法的维数灾难问题,首先提出了用于识别关键状态的"决策收益率"概念及其估算方法,然后借鉴学习范围扩展的思想,以经典Q-Learning学习算法为基础,提出了关键状态优先学习算法(Critical States Prioritized Learning,CSPL)。最后本文实现了机器人寻径实验,并比较了CSPL算法与Q-Learning算法的实验结果。
其他文献
近年来,建筑工程项目如雨后春笋般迅速涌现,为了保证建筑业的健康发展,建筑工程合同管理是必不可少的。对于施工项目,合同规定了双方必须履行的义务和各自的权利,是施工项目
从水环境监测的应用需求出发,提出了水下空间节点三维部署的目标和约束条件。同时,为了解决在三层水下无线传感器网络结构模型下,节点稀疏部署后,网络存在的能耗不均衡问题,
花药开裂是开花植物生殖生长中非常重要的一个环节,花药能否适时开裂直接影响授粉和受精。水稻花药开裂与浆片膨大所导致的颖花开放同步发生。植物激素茉莉酸(JA)是调控花药开
在分析食用菌产业特殊性的基础上,对产业链各个环节的技术与质量问题进行探讨,研究了食用菌产品质量问题产生的原因,提出了产品质量管理必须注重实际执行效果,改变被动的管理
栖霞寺是南京千年名刹。明朝中期,栖霞寺佛教衰微至极。嘉靖三十三年(1554)前后,华严名僧素庵真节应请至栖霞寺,讲经说法近四十年,弘传华严宗学,兼弘天台、唯识、禅宗、净土等宗思想
目的探讨人血白蛋白在创伤性骨折患者的合理应用.方法回顾性分析86例创伤性骨折后低蛋白血症患者的临床资料,其中闭合骨折患者(43例),开放骨折患者(43例),根据是否使用人血白蛋白
【正】 数理逻辑又称符号逻辑,是用数学方法研究思维形式的逻辑结构及其规律的学科。所谓数学方法,是指用一套表意符号(即形式语言系统)表达思维的形式结构和规律,从而把对思
<正>对承担"建设具有全球竞争力的世界一流企业"责任和使命的我国大型企业特别是国有企业而言,要在国际化人才培养方面发挥引领和带动作用,积极探索适合企业实际的立体式、多
可视化管理是应用信息化技术、智能化技术、虚拟现实技术等技术手段对企业的任务内容、数字、信息和经验等可视化内容进行组织、计划、决策、控制、创新、监督等一系列管理活
<正> 1975年夏,在广西桂林市的小鼯鼠Petaurista elegans ssp.体上采得两种革螨,经鉴定一种系鼯鼠赫刺螨Hirstionyssus trogopteri trogopteri Teng et Pan,1962,另一种系血