POMDP中基于点及策略迭代的算法研究与实现

被引量 : 0次 | 上传用户:fcunui_w
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不确定环境下的规划问题在研究领域和应用领域愈发重要,设计健壮而具备较强可伸缩性的算法是设计和实现不确定环境下能够独立决策的自治和半自治系统的关键。部分可观测马尔科夫模型(Partially Observable Markov Decision Processes, POMDPs)提供了不确定环境下决策问题的解决框架,但是由于POMDP问题的历史灾难和维度灾难特性,其精确求解的方法使得POMDP在实际领域的应用中受阻。虽然基于策略迭代的方法具有比值迭代更好的性能,但其应用仅局限于一定规模下的实际问题。近似算法的提出,尤其是基于点的近似算法的提出和不断改善,改变了这一情况。通过选取具有代表性的点并基于这些点来做规划,可以得到比较接近精确最优的次优策略。本文介绍了POMDP由MDp模型的演变,以及在此基础上值函数和迭代过程的变化。通过对一系列精确算法的描述,分析其计算复杂度,得到其无法实用的原因。随后介绍了策略迭代算法和基于点的近似算法,通过对几年来具有代表性的基于点的算法PBVI、HSVI和FSVI的描述,展示了点算法统一的框架和在点集选取和点集上值函数迭代在细节上的不同。本文提出了PIPBVI和PBHSPI算法,并在四个具有代表性的权威数据集上进行实验,与已有经典算法进行对比,分析和讨论了算法在不同问题上的表现。通过对信念点集和值函数向量有针对性的裁剪,然后对点集进行对值函数有提升效果的插值,PIPBVI算法取得了相比于PBVI更好的性能和策略。PBHSPI算法结合了策略迭代和启发式点算法的优点,通过交叉使用基于点集的值迭代和直接策略迭代,决策效果不降低的情况下有效加快了算法的收敛。
其他文献
随着全球化浪潮的掀起和国家“走出去”政策的鼓励,浙江省境外企业和机构的数量连续多年居全国大陆省、市、区第一,在这股对外直接投资的热潮中,浙江民营企业起到了主力军的
随着科技的迅速发展与国内电力市场的逐步建立,电能质量的好坏与否得到了人们的广泛关注,尤其是在航空运输日益发达的今天,飞机的电能质量情况更是影响到了此产业的发展。其
进行法律移植是今天不少学者所探讨的话题,但是,中国几千年的法制史,有不少制度其实是值得我们今天借鉴的,本文试图对中国古代的几种做法的可借鉴之处进行分析,以期对立法起到一些
现阶段我国素质教育工作深受关注,而在素质教育不断推进的过程中,中职院校在教育教学工作上面临新的困难与挑战,其中数学教学工作尤为明显。我国教育部门也对中职院校提出了
多元智能理论是由美国著名学者加德纳提出的,现在已经应用于西方的多个领域和多所学校。在我国主要应用于幼儿教育、少儿教育和英语教育方面。在高等教育方面,首先应用于高等职
做好调查问卷工作,有助于审计人员了解情况,掌握信息,从而更好地提高审计效果,保障审计质量。本文将基于此,探讨审计调查问卷工作应注意的三个问题,即:主题明确,突出重点;设
针对车用气瓶及各类复合气瓶缺乏火烧、枪击条件下安全性试验装置和评判依据的难题,本文根据国内外规范和标准的试验要求,研发了适应性广泛的气瓶火烧试验装置;运用有限元分析
中国翻译历史悠久,佳作迭出。近些年来,随着市场需求加剧,越来越多的人们投身此行业。然而,当前中国翻译市场依旧存在一些突出问题,例如翻译理念理解不够深刻,缺乏足够的优秀教师人
汽车传动系统是汽车底盘的核心部分,它能有效完成动力由发动机向车轮的动力传输,改变速比特性实现变速变矩,完成转弯时左右轮的差速等工作。对汽车传动系统的研究,关系着汽车
时序异常在数据挖掘领域有许多应用,包含聚类性质的改进,数据过滤,总结以及异常检测。数据挖掘中的一个重要方面是异常检测,异常检测不同平常的事,它是一种小模式,这种小是相对聚类