基于点的POMDP算法研究

来源 :南京大学 | 被引量 : 0次 | 上传用户：qidezhong

【摘要】

：

部分可观察马尔可夫决策过程(POMDPs)以其丰富而灵活的数学模型，被广泛应用于各种贯序决策问题，成为最近研究比较热的决策模型。但其维度和历史问题使得其精确求解的复杂度过高

【作者】

：

卞爱华

【机构】

：

南京大学

【出处】

：

南京大学

【发表日期】

：

2009年期

【关键词】

：

贯序决策马尔可夫决策预处理方法策略迭代

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

部分可观察马尔可夫决策过程(POMDPs)以其丰富而灵活的数学模型，被广泛应用于各种贯序决策问题，成为最近研究比较热的决策模型。但其维度和历史问题使得其精确求解的复杂度过高，使得一直以来该模型仅停留在研究阶段或仅限于低纬度问题的应用。因此种种近似算法随之产生，基于点的算法以其简单直观的思想和优良的效果而引起广泛关注，并将POMDP模型推向了更广的应用领域。　　本文在详细介绍POMDP数学模型的基础上，解释了值函数的概念，并重点讨论了基于点的近似算法和对该算法的进一步研究。具体内容如下：　　 1.详细介绍了马尔可夫决策过程(MDP)和部分可观察马尔可夫决策过程(POMDP)的概念和数学模型。　　 2.解释了值函数的概念和意义，给出了值迭代的方法和流程，并简单介绍了MDP和POMDP的传统的精确解算法。　　 3.重点讨论了基于点的近似算法的思想和意义，介绍了其常规流程以及它相对传统精确算法的优点。　　 4.介绍了经典的基于点的值迭代算法，并引入了基于点的算法的预处理方法(PPBA)。　　该算法对每个样本点进行了预处理，从而改变了算法结构，消除了重复和无意义计算，提高了算法效率。　　 5.介绍了基于策略迭代的算法，并引入了直接策略迭代算法(DPI)。该算法消除了传统策略迭代中的值迭代，而只有纯粹的策略迭代。DPI算法包括策略修正和策略扩充两个主要部分。它通过与值函数的交互和信念点集的扩充，直接进行策略的迭代，使得算法更加简单并且效率更优。　　

其他文献

普适计算环境中的任务调度问题研究

普适计算作为一种新型的分布式计算模式，反映了人们对信息服务的更高需求，展现了信息空间、物理空间及用户空间三者无缝融合的前景，是计算机技术发展的必然趋势。　　普适计算

学位

普适计算任务调度性能测量

基于推荐的对等网络下的全局信任模型研究

近年来,P2P技术受到人们的广泛关注。在P2P网络中所有的节点均是对等的,各节点具有相同的责任与能力并协同完成任务。然而P2P网络的开放性和匿名性使得P2P系统的安全问题变得

学位

P2P信任模型MGTrust贴近度雅克比超松弛迭代

数据空间内面向语义的资源组织与管理模型研究

随着网络技术的发展,Web技术日益成熟,Internet收集了海量的信息资源,这些资源具有异构、更新变化快、分布分散而且结构松散等复杂特性,传统的数据库技术不再满足数据管理的

学位

数据空间数据描述模型元数据Dbpedia语义处理

若干数据挖掘方法在方剂配伍规律发现中的应用研究

作为一种传统医学，中医学已有数千年的历史。在中医发展的几千年过程中，积累了很多治疗病症的方剂。方剂数目庞大，涉及的药物也非常多。如何利用这些海量信息为防治疾病提供科学

学位

数据挖掘方剂配伍聚类算法数据集

基于Takagi-Sugeno模型FNN的入侵检测技术研究

入侵检测是一种积极主动的安全防护技术,它可以监视主机系统或是网络上的用户活动,发现可能存在的入侵行为。但由于我国入侵检测技术研究起步较晚,目前入侵检测系统依然存在

学位

网络入侵检测模糊神经网络Takagi-Sugeno模型遗传算法KDD CUP 99

事件驱动型无线传感器网络数据融合算法研究

无线传感器网络由部署在监测区域内的大量廉价的传感器节点组成,各个节点之间通过无线通信方式自组织形成网络系统,协作地进行感知、采集和处理周围环境或感知对象的信息,并

学位

无线传感器网络数据融合事件驱动近源汇聚

高速网络线速深度分组检测关键技术研究

普通的分组检测仅仅检测分组的头部，深度分组检测（Deep Packet Inspection）有时也称为完全分组检测，属于应用语义级的检测。随着计算机网络的发展，网络的功能正逐步从简单的“浅层

学位

深度分组检测深度分组检测可编程状态机可编程状态机应用级语义检测应用级语义检测正则表达式正则表达式动态模式匹配动态模式匹配网络功能网络功能网络流量网

数据块关系指导的存储系统性能优化技术研究

存储系统逐渐成为网络服务器系统的主要瓶颈。为了提高存储系统性能，当前研究的明显趋势是通过对应用负载进行分析，针对访问特征对数据预取、缓存替换、数据分布等策略进行优化

学位

存储系统性能优化频繁访问模式数据预取缓存替换多副本数据分布数据块关系

基于深度信息的手部姿态估计方法研究

在计算机视觉领域，手部姿态估计是通过传感器获得的视觉信息，估计出手部的结构姿态的方法。由于手部姿态估计在基于手势的人机交互、手语识别等领域有着潜在的广泛应用，近年来已

学位

手部姿态估计数据集自编码网络预测模型

K-匿名表更新问题的研究

K-匿名方法是视图发布条件下防止数据隐私泄露的一种重要方法,K-匿名化后的视图称为K-匿名表。当基本表发生更新变化时,如何保持K-匿名表数据与基本表数据的一致性是一个值得

学位

K-匿名表无关更新可自动计算更新常规更新动态树多维桶增量更新

基于点的POMDP算法研究

与本文相关的学术论文