一种基于特特征向量提取的FMDP模型求解方法

来源 :软件学报 | 被引量 : 0次 | 上传用户：louisvu

【摘要】

：

在诸如机器人足球赛等典型的可分解马尔可夫决策过程(factored Markov decision process,简称FMDP)模型中,不同状态属性在不同的状态下,对于状态评估的影响程度是不同的,其中

【作者】

：

张双民石纯一

【机构】

：

清华大学,计算机科学与技术系,北京,100084

【出处】

：

软件学报

【发表日期】

：

2005年5期

【关键词】

：

群体Agent合作求解可分解马尔可夫决策过程线性规划再励学习维数灾

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在诸如机器人足球赛等典型的可分解马尔可夫决策过程(factored Markov decision process,简称FMDP)模型中,不同状态属性在不同的状态下,对于状态评估的影响程度是不同的,其中存在若干关键状态属性,能够唯一或近似判断当前状态的好坏.为了解决FMDP模型中普遍存在的“维数灾”问题,在效用函数非线性的情况下,通过对状态特征向量的提取近似状态效用函数,同时根据对FMDP模型的认知程度,从线性规划和再励学习两种求解角度分别进行约束不等式组的化简和状态效用函数的高维移植,从而达到降低计算复杂度,加快联合策略生成速度的目的.以机器人足球赛任意球战术配合为背景进行实验来验证基于状态特征向量的再励学习算法的有效性和学习结果的可移植性.与传统再励学习算法相比,基于状态特征向量的再励学习算法能够极大地加快策略的学习速度.但更重要的是,还可以将学习到的状态效用函数方便地移植到更高维的FMDP模型中,从而直接计算出联合策略而不需要重新进行学习.

其他文献

高血压病患者中医循证护理临床效果分析

目的探讨中医循证护理对高血压的不良因素与治疗作用的影响.方法对101例高血压的住院患者进行详细的院前评估,对整个治疗过程进行有效观察,按中医循证护理提出具体的护理干预

期刊

Chinese traditionalEvidence-based nursinghypertension analysis

AZ31、AZ61和AZ91变形镁合金板温拉成形实验研究

为了获得变形镁合金AZ31、AZ61和AZ91板材的基本力学性能和成形性能,自行设计了在线加热系统,在加热温度175～400℃和应变速率为10-3、10-2、10-1 s-1的条件下,对三种镁合金板

期刊

变形镁合金拉伸实验在线加热

CRP和胆红素水平与颈动脉粥样硬化程度的关系

目的探讨C反应蛋白(CRP)及胆红素水平与颈动脉粥样硬化程度的关系.方法原发性高血压患者90名,按颈动脉超声检测结果分为无斑块组和斑块组,将斑块组按回声强弱分为强回声组、

期刊

Carotid atheromaArthersclerosisC-reactive protein

良性前列腺增生的肾功能损害与膀胱形态学改变的相关性临床研究

目的探讨前列腺增生的肾功能损害与膀胱形态学改变的相关性方法对395例前列腺增生患者进行肾功能和膀胱形态检测结果本组395例良性前列腺增生患者,45例出现肾功能不全,约占11

期刊

benign prostatic hyperplasiarenal insufficiencydegree of bladder trabeculation

初中数学学困生学习效率提高对策研究

本文通过对荣华二采区10

期刊

一种基于特特征向量提取的FMDP模型求解方法

与本文相关的学术论文