基于点的POMDP算法研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:qidezhong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
部分可观察马尔可夫决策过程(POMDPs)以其丰富而灵活的数学模型,被广泛应用于各种贯序决策问题,成为最近研究比较热的决策模型。但其维度和历史问题使得其精确求解的复杂度过高,使得一直以来该模型仅停留在研究阶段或仅限于低纬度问题的应用。因此种种近似算法随之产生,基于点的算法以其简单直观的思想和优良的效果而引起广泛关注,并将POMDP模型推向了更广的应用领域。   本文在详细介绍POMDP数学模型的基础上,解释了值函数的概念,并重点讨论了基于点的近似算法和对该算法的进一步研究。具体内容如下:   1.详细介绍了马尔可夫决策过程(MDP)和部分可观察马尔可夫决策过程(POMDP)的概念和数学模型。   2.解释了值函数的概念和意义,给出了值迭代的方法和流程,并简单介绍了MDP和POMDP的传统的精确解算法。   3.重点讨论了基于点的近似算法的思想和意义,介绍了其常规流程以及它相对传统精确算法的优点。   4.介绍了经典的基于点的值迭代算法,并引入了基于点的算法的预处理方法(PPBA)。   该算法对每个样本点进行了预处理,从而改变了算法结构,消除了重复和无意义计算,提高了算法效率。   5.介绍了基于策略迭代的算法,并引入了直接策略迭代算法(DPI)。该算法消除了传统策略迭代中的值迭代,而只有纯粹的策略迭代。DPI算法包括策略修正和策略扩充两个主要部分。它通过与值函数的交互和信念点集的扩充,直接进行策略的迭代,使得算法更加简单并且效率更优。  
其他文献
普适计算作为一种新型的分布式计算模式,反映了人们对信息服务的更高需求,展现了信息空间、物理空间及用户空间三者无缝融合的前景,是计算机技术发展的必然趋势。   普适计算
近年来,P2P技术受到人们的广泛关注。在P2P网络中所有的节点均是对等的,各节点具有相同的责任与能力并协同完成任务。然而P2P网络的开放性和匿名性使得P2P系统的安全问题变得
随着网络技术的发展,Web技术日益成熟,Internet收集了海量的信息资源,这些资源具有异构、更新变化快、分布分散而且结构松散等复杂特性,传统的数据库技术不再满足数据管理的
作为一种传统医学,中医学已有数千年的历史。在中医发展的几千年过程中,积累了很多治疗病症的方剂。方剂数目庞大,涉及的药物也非常多。如何利用这些海量信息为防治疾病提供科学
入侵检测是一种积极主动的安全防护技术,它可以监视主机系统或是网络上的用户活动,发现可能存在的入侵行为。但由于我国入侵检测技术研究起步较晚,目前入侵检测系统依然存在
无线传感器网络由部署在监测区域内的大量廉价的传感器节点组成,各个节点之间通过无线通信方式自组织形成网络系统,协作地进行感知、采集和处理周围环境或感知对象的信息,并
普通的分组检测仅仅检测分组的头部,深度分组检测(Deep Packet Inspection)有时也称为完全分组检测,属于应用语义级的检测。随着计算机网络的发展,网络的功能正逐步从简单的“浅层
存储系统逐渐成为网络服务器系统的主要瓶颈。为了提高存储系统性能,当前研究的明显趋势是通过对应用负载进行分析,针对访问特征对数据预取、缓存替换、数据分布等策略进行优化
在计算机视觉领域,手部姿态估计是通过传感器获得的视觉信息,估计出手部的结构姿态的方法。由于手部姿态估计在基于手势的人机交互、手语识别等领域有着潜在的广泛应用,近年来已
K-匿名方法是视图发布条件下防止数据隐私泄露的一种重要方法,K-匿名化后的视图称为K-匿名表。当基本表发生更新变化时,如何保持K-匿名表数据与基本表数据的一致性是一个值得