部分可观察马氏决策问题的近似规划方法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户：case_sheng

【摘要】

：

能否在不确定、动态环境下正确地决策,是衡量自主机器人性能好坏的一项重要指标。部分可观察马尔科夫决策过程(Partially Observable Markov Decision Processes,POMDPs)为自

【作者】

：

钱炜晟

【出处】

：

苏州大学

【发表日期】

：

2017年01期

【关键词】

：

强化学习 POMDP 连续裁剪启发式搜索

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

能否在不确定、动态环境下正确地决策,是衡量自主机器人性能好坏的一项重要指标。部分可观察马尔科夫决策过程(Partially Observable Markov Decision Processes,POMDPs)为自主机器人在不确定性环境中的规划问题,提供了一个极富表达力的数学框架。POMDP现已在无人驾驶、机械臂操作等自主机器人任务中得到成功的应用。现有的处理连续空间POMDP规划问题的方法常使用离散化来求解策略,该方法计算量大,效率偏低。本文为了解决连续空间中的POMDP规划问题,提出三种新的算法:(1)针对连续状态空间中现有算法使用离散化,将连续的状态离散化为网格,导致算法性能低下的缺陷,提出一种面向连续空间POMDP问题的高效算法——GPG算法。该算法在状态空间和相应的信念空间中抽样,同时使用广义策略图和抽样最大化方法,将算法推广到连续观察和连续动作空间。实验结果表明,GPG算法收敛速度快且能获得更优的策略。(2)针对连续状态空间中蒙特卡罗值迭代算法所得策略图会随着时间迅速增长,算法性能急剧降低的问题,提出一种优化的连续状态蒙特卡罗值迭代算法——OMVCI算法。该算法优化新增结点、裁剪被支配的和冗余的结点,获得结构更加紧凑、性能更加优异的策略图。(3)针对连续状态大规模观察空间传统算法启发式搜索效率低,收敛速度慢的问题,提出一种连续状态大规模观察空间的银杏叶搜索算法——GLS算法。为了提高收敛速度,在启发式搜索阶段中,提出了对较大值的结点使用“探索”的方法。同时根据已有的先验知识,自适应调整“探索”与“利用”的比例。该方法可以保证更新效果相同的情况下,减少更新次数,节省大量计算时间,提高算法性能。从理论上分析了算法的收敛性,并通过实验验证算法收敛速度快、收敛效果好的特性。

其他文献

版协通讯

中国年鉴研究会即将改制换届根据新闻出版署党组“减少口子、压缩数量、增强骨干、理顺关系、规范活动、服务大局,有利于新闻出版事业发展和加强对社团管理”的原则,决定将

期刊

出版工作者理论研讨出版科研编辑学杨牧之江苏省新闻出版出版理论副署长中国版

氨力农治疗充血性心力衰竭80例

目的：观察使用正性肌力药氨力农治疗80例充血性心力衰竭(CHF)的疗效。方法：氨力农静脉给药，20例难治性CHF可酌情加用强心苷、利尿药等。结果：显效率66.3%，总有效率95.0%。20例难治

期刊

氨力农充血性心力衰竭心功能治疗药物疗法疗效

我们开始尝试合同式质检工作

期刊

质量控制质量检验

强力宁对大鼠脑缺血再灌注损伤的保护作用

目的：观察强力宁(QLN)对大鼠急性脑缺血再灌注损伤的作用。方法：采用大鼠急性不完全性脑缺血再灌注损伤模型，测定脑组织含水量、丙二醛(MDA)、超氧化物歧化酶(SOD)及三磷酸腺苷

期刊

强力宁超氧化物歧化酶三磷酸腺苷酶脑缺血再灌注损伤Qianglining Cerebral reperfusion lesion Superoxide

新形势下企业财务内控体系构建策略研究

本文首先对新形势下企业构建财务内控体系的重要意义进行分析，然后剖析了企业财务内控工作中存在的缺陷之处，最后提出了企业构建财务内控体系的具体策略，从而为企业更快发展提供

期刊

新形势财务内控体系

混合所有制改革的路径探索

国有企业在实现混合所有制改革时要按照完善治理、强化激励、突出主业、提高效率要求，全面探索股权多元化和多种形式的混合所有制改革，持续深化与民营资本、金融资本、社会资本

期刊

国有企业混合所有制集体资本个人资本路径

复方甲苯咪唑致亚急性脱髓鞘性脑炎的临床分析

目的:探讨复方甲苯咪唑致亚急性脱髓鞘性脑炎的临床特征及治疗.方法:临床观察并分析26例该病患者的临床表现及相关资料.结果:本病最常见的症状是肌力减退、感觉异常、精神异

期刊

甲苯咪唑复方脑炎脱髓鞘性亚急性

冠心病经皮冠状动脉介入术后患者下肢深静脉血栓形成的预防性护理

目的探讨冠心病(CHD)经皮冠状动脉介入(PCI)术后下肢深静脉血栓(DVT)的预防性护理方法,并观察其应用效果。方法通过便利抽样法采集2017.2~2018.3期间在我院接受PCI手术治疗的

期刊

冠心病经皮冠状动脉介入深静脉血栓形成预防性护理

关于贯彻实施《中华人民共和国行政处罚法》的意见

《中华人民共和国行政处罚法》的颁布实施,是在我国确定行政诉讼法律制度后,行政法制建设中的又一件大事。各级技术监督部门担负着《标准化法》、《计量法》、《产品质量法》

期刊

技术监督行政处罚法行政执法

稻瘟菌插入突变体库的构建及产孢缺陷兼生长缓慢型突变体的分子遗传学研究

稻瘟菌为单倍体异宗配的合子囊菌，由其引起的稻瘟病是世界范围内危害水稻生产的一种重要病言。稻瘟病系统中，病菌与水稻间的互作符合基因对基因关系。稻瘟菌无毒基因和致病相关

学位

稻瘟菌限制性内切酶介导的整合插入突变体库质粒拯救

部分可观察马氏决策问题的近似规划方法研究

与本文相关的学术论文