一种基于特特征向量提取的FMDP模型求解方法

来源 :软件学报 | 被引量 : 0次 | 上传用户:louisvu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在诸如机器人足球赛等典型的可分解马尔可夫决策过程(factored Markov decision process,简称FMDP)模型中,不同状态属性在不同的状态下,对于状态评估的影响程度是不同的,其中存在若干关键状态属性,能够唯一或近似判断当前状态的好坏.为了解决FMDP模型中普遍存在的“维数灾”问题,在效用函数非线性的情况下,通过对状态特征向量的提取近似状态效用函数,同时根据对FMDP模型的认知程度,从线性规划和再励学习两种求解角度分别进行约束不等式组的化简和状态效用函数的高维移植,从而达到降低计算复杂度,加快联合策略生成速度的目的.以机器人足球赛任意球战术配合为背景进行实验来验证基于状态特征向量的再励学习算法的有效性和学习结果的可移植性.与传统再励学习算法相比,基于状态特征向量的再励学习算法能够极大地加快策略的学习速度.但更重要的是,还可以将学习到的状态效用函数方便地移植到更高维的FMDP模型中,从而直接计算出联合策略而不需要重新进行学习.
其他文献
目的探讨中医循证护理对高血压的不良因素与治疗作用的影响.方法对101例高血压的住院患者进行详细的院前评估,对整个治疗过程进行有效观察,按中医循证护理提出具体的护理干预
为了获得变形镁合金AZ31、AZ61和AZ91板材的基本力学性能和成形性能,自行设计了在线加热系统,在加热温度175~400℃和应变速率为10-3、10-2、10-1 s-1的条件下,对三种镁合金板
目的探讨C反应蛋白(CRP)及胆红素水平与颈动脉粥样硬化程度的关系.方法原发性高血压患者90名,按颈动脉超声检测结果分为无斑块组和斑块组,将斑块组按回声强弱分为强回声组、
目的探讨前列腺增生的肾功能损害与膀胱形态学改变的相关性方法对395例前列腺增生患者进行肾功能和膀胱形态检测结果本组395例良性前列腺增生患者,45例出现肾功能不全,约占11
本文通过对荣华二采区10
期刊