基于策略迭代和值迭代的POMDP算法

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户:ptf_phoenix
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
部分可观察Markov决策过程是通过引入信念状态空间将非Markov链问题转化为Markov链问题来求解,其描述真实世界的特性使它成为研究随机决策过程的重要分支.介绍了部分可观察Markov决策过程的基本原理和决策过程,提出一种基于策略迭代和值迭代的部分可观察Markov决策算法,该算法利用线性规划和动态规划的思想,解决当信念状态空间较大时出现的"维数灾"问题,得到Markov决策的逼近最优解.实验数据表明该算法是可行的和有效的.
其他文献
本文以激电异常推断解释专家系统的研制为背景,详细讨论了以Prolog 语言为工具实现基于规则的专家系统的原理和方法。探讨了包括知识表示、推理方法,知识获取及有关知识库校
中小企业是现代经济的重要支柱,是国民经济中最活跃的组成部分,是吸收就业的良好载体,数量多且分布广。中小企业多靠自我积累,自我筹资发展起来的,内源性融资占比较高。单纯
本文主要以校园一卡通为基础,针对硬件系统设计和软件系统设计,研究了基于单片机的宿舍门禁系统设计。
本文以中学体育教学为主题展开论述,重点对中学体育教学存在的不足及改革办法进行了分析探讨。
目的:获得我国感染性腹泻病原学监测本底数据,掌握我国感染性腹泻病原流行特征,阐明各种病原体致泻的临床特点,填我国感染性腹泻病原体本底情况及其流行特征的空缺,发现对其中
文章以江西省部分高校1200名学生为调查对象,通过方差分析和回归分析,对影响课堂教学学生满意度的因素进行研究。结果显示,教师的执教素养、教学态度及学生的学习意识、学习
英汉语句子中的谓语一般由动词担当 ,但不同的是 ,汉语的谓语动词可以连用 ,和英语相比 ,连动谓语可以说是汉语谓语的一个特点。在表达方式上 ,除少数情况下 ,汉语的连动谓语
随着我们国家市场经济的培育和发展,为了转化、优化和强化政府职能,充分利用好税收这一宏观调控手段和工具,建立健全市场经济秩序,更深层次的升级产业结构,纳税筹划越来越收
<正>2017年,数字化转型成为很多组织推动内部信息化、资源优化,实现IT重构的共同选择。那么在2018年,数字化转型将会呈现出怎样的趋势呢?下面笔者结合行业的分析与研究,给予
随着市场形成工程造价机制改革的不断深化,各省陆续进行了强化建设工程造价信息管理的尝试,对规范建设工程各方主体的计价行为起到了积极的推动任用。但截止目前,建设工程造