不确定MARKOV决策过程的自适应决策

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:fuyw118
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对现有不确定MDP自适应决策的不足,该文首次提出了有限规划水平MDP的自适应决策,并对其进行了研究.通过将Bayes方法引入MDP的自适应决策,该文提出了能够实现次优的自适应决策方法,并且将所得的结论推广到POMDP自适应决策.此外,在现有无限规划水平不确定MDP自适应决策方法的基础上,通过离散化参数集,该文不仅得到了比现有方法效率更高自适应决策方法,而且还将该方法应用到参数集连续可分的一般MDP.对无限规划水平POMDP的自适应决策,该文也进行了研究,通过将MDP自应用决策中的有偏极大似然参数估计法推广到POMDP,提出了能够实现最优的POMDP自适应决策方法.
其他文献
关联规则是数据挖掘的研究热点之一.该文采和等价类和闭合项目集在垂直分布数据库中挖掘关联规则,主要解决以下两个问题:提高大型数据库中关联规则的挖掘算法的速度,减小生成
反搏治疗是通过在心脏的舒张期利用机械手段增加动脉血压进而增加对心脏供血来实现治疗目的的.将气囊绑在人体上,当对气囊充气时,它会对人体内的动脉血管产生一个压力,也就相
近年来,非线性系统的控制得到了极大的发展,在算法和软件上都有了迅猛的突破。而机器人动力学系统是一个高度复杂的非线性模型,在控制界,对机器人系统的研究始终是个难点,也是个热
目前,为上肢截肢患者安装假肢是恢复其肢体功能的主要手段。传统的假肢大多只能起到机械支撑和美观的作用,存在着结构简单,运动不灵活,功能单一等缺点。近几十年,表面肌电信号被广
该报告详细地研究了不确定性机器人关节控制级的快速、高精度鲁棒自适应控制方法,力求保证三种不同的全局稳定性结果(一致最后有界、渐近稳定、指数稳定).主要成果包括以下几
该论文结合国家高科技领域"863-2"项目--"探索-1"哈尔滨工业大学立体测绘微小卫星的研究开发课题,对小卫星的高精度反作用轮姿态控制系统进行了深入的研究.文中系统总结了当
该论文的主要目的是对应用广泛的LonWorks技术作全面分析,在对传统的基于Neuron芯片的Lon网络控制系统的优缺点进一步分析综合的基础上,提出了一种新型的由控制功能更强大,实
B超仪由于其无损伤、使用方便、造价低等优点,而得到了越来越广泛的应用.技术的不断进步推动着B超仪在性能、功能以及使用灵活性等方面的不断改善.该论文本着立足自身、瞄准
语音编码技术是伴随着数字通信而产生的,是发展最早、使用最普遍的 信息处理和通讯技术,语音编码的最主要目标就是语音数据的压缩。随着以 分组交换为特征的计算机网络等技术
学位
三维重建技术是计算机视觉中一个比较重要的研究方向,随着3D打印技术的普及,对3D扫描技术的需求也日益增加。现有的三维扫描技术日趋多样化,而激光扫描和结构光三维扫描技术是其