POMDP近似算法的研究与设计

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:xiaxj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
部分可观测马尔科夫决策过程(Partially Observable Markov Decision Process,POMDP)是处理不确定条件下决策问题的一个通用框架,它在机器人控制,口语系统,医疗诊断等领域都有很大的应用前景。但是由于POMDP问题的历史灾难和纬度灾难性质,精确求解算法是NP难问题,这就大大限制了其在实际中的应用。近年来,近似算法,特别是基于点的近似算法在POMDP策略求解上取得了很大的进步。基于点的算法只考虑初始信念点的可达空间,在可达空间的采样点上进行值迭代,不同算法之间的区别主要在于采样方法和迭代策略。其代表性的算法有基于点的值迭代(PBVI),前向搜索值迭代(FSVI)和启发式搜索值迭代(HSVI),它们通常能够得到最优或近似最优的策略。另一类重要的近似算法是基于迭代函数的近似,如基于MDP的近似(QMDP),快速告知边界法(FIB),它们得到的是精确值函数的上下界。这类算法通常简单快速,能够处理规模较大的问题,但是对产生策略的质量没有保证。为了在较短的时间内得到一个良好的下界,本文提出了相关状态提升法(RSU),它的主要思想是用对信念点相关状态的提升去近似对信念点的提升,同时借助内在的MDP探索最优策略下的可达状态空间,然后在得到的状态空间中利用近似值迭代和状态转移树的拓扑结构来加速迭代的进程。利用得到的上下界,本文给出了一个改进的基于点的算法--多路启发式搜索值迭代(MHSVI),依据可能的最优值函数产生信念点路径,对路径可能达到的值进行评估,并依据评估值对路径进行剪枝,使得值函数能够快速地收敛。本文在几个代表性问题上对提出的算法和已有算法进行了实验,实验结果证明了 RSU和MHSVI的有效性。
其他文献
Markov跳变系统是重要的一类混合动态系统,该系统的主要特征为其状态空间由欧氏空间Rn和离散有限事件集S共同组成,且离散有限事件集S的各个模态之间的跳变服从Markov过程。Ma
现代农业的温室温湿度测控系统,能够根据植物所需要的最优生长发育条件,自动测量和调节温室内的温度、湿度。温室的温湿度测控是实现温室生产管理自动化、科学化的基本保证,通过
管道运输在国民经济中具有重要作用,为了保证管道安全、高效的运行,需要开发出快速、精确的管道损伤检测技术。   应力波导波检测技术因其具有快速、事先检测、施工方便,
对烟道污染气体排放的实时监测是流程工业固定污染源得到有效治理的前提,本文针对目前国内对烟道污染气体监测,所采用气体抽样配合化学分析的离线分析方法存在的测量稳定性和准
伴随着计算机和网络技术的高速发展,数据采集系统从传统电路、微机模式发展为嵌入式系统模式,嵌入式系统在现代工业数据采集中起到不可替代的重要作用。本文所设计的数据采集系
伴随着计算机和传感器技术的不断发展,针对移动机器人的技术研究成为了全球热点问题。在室内移动机器人的技术研究中,导航技术一直是其研究核心。解决好移动机器人实时准确的
硼元素广泛存在于大气、水体、岩石、土壤、动植物体内,并广泛使用于各种合金和材料中,在农业、生物、环境、地质和工业领域有着广泛的实际应用价值。时间分辨荧光光谱技术是一
广义特征分解问题广泛地出现在现代信号处理应用中,其中包括模式识别、线性判断分析、错误探查、自适应阵列处理等。广义特征分解技术作为一种实用的统计工具,用来解决主广义特
电梯轿厢的内部空间狭小、密闭,是摔倒、侵害、抢劫和群体恐慌等事件的多发之地。通过视频监控,预防上述事件的发生对于维护民生安全具有非常重要的现实意义。本文对电梯轿厢
机器人视觉和双足机器人是目前机器人领域的两个研究热点,是提高机器人智能度既有效又直接的手段,因而研究机器人视觉和双足机器人在机器人领域具有重要意义。本文从提高机器人