离散时间马氏过程的最优控制——新的最优性条件和新的方法

来源 :中山大学 | 被引量 : 0次 | 上传用户:maowangaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本篇博士论文对离散时间马氏决策过程(discrete-time Markov decision processes, 简记为DTMDP)的一系列问题做了进一步的研究. 这些问题主要包括: (1) 可数状态上极限和下极限两种平均准则下的最优性问题. (2) 一般状态空间中的平均最优平稳策略的存在性条件, 值迭代算法以及最优策略的性质. (3) 一般状态空间中的平均样本轨道最优性问题.(4) 一般状态空间中的方差最优性问题. (5) 一般状态空间中的强n(n = ?1,0)-折扣最优性问题. 本文用新方法所得结果推广了已有文献中相应的结论, 并且可应用于以前所不能处理的若干情形. 此外, 还通过库存系统和受控的排队系统等一些实例, 说明了相应条件和结果的应用.全文共分为七章.第一章为综述, 简要地介绍了马氏决策过程的历史背景, 研究内容, 发展现状以及本文所做的主要工作.第二章讨论了可数状态上极限和下极限两种平均准则下的最优性问题. 我们给出了一组新的最优性条件, 并在此条件下保证存在既是上极限又是下极限平均最优平稳策略. 而且, 本章的条件和结果被应用到一个允许控制的排队模型.第三章讨论了Borel状态空间中的平均最优性问题. 我们首先给出“两个相反方向的最优不等式”, 并给了条件使这两个不等式的解存在. 然后, 从这两个不等式出发, 并在连续紧条件下我们可以保证存在平均最优平稳策略. 我们的条件弱于以往文献中的条件. 特别,我们还给出了一些加在模型原始数据中的新充分性条件. 而且, 我们的方法与DTMDP中著名的“最优不等式方法”稍有不同. 另外, 我们对最优策略的性质也作了进一步的研究. 我们不仅得到了最优策略的两个充分必要条件, 而且给出了最优平稳策略的“半鞅刻划”. 最后, 本章的条件和结果被运用到受控的排队系统和可控的一般化的Potlach过程.第四章讨论了Borel状态空间中的平均期望费用的值迭代问题, 即通过值迭代算法来研
其他文献
采用田间调查方法,对27个棉花育种材料的产量与纤维品质指标进行比较分析.结果表明,材料间籽棉、皮棉产量差异很大,籽棉产量最高的为3509.7kg/hm^2,最低的为1153.0kg/hm^2,皮棉产量最
设对照组(未染毒)、低剂量组(约2.5支烟,每天染毒10min)、中剂量组(约5支烟,每天染毒20rain)及高剂量组(约10支烟,每天染毒40min)4个处理,将雄性SD大鼠置于气体染毒箱内行被动吸烟,研究卷烟
为评价灰毛豆种子甲醇提取物对白背飞虱天敌黑肩绿盲蝽的安全性,比较了提取物对黑肩绿盲蝽成虫和白背飞虱3龄若虫的杀虫毒力,测定了提取物对黑肩绿盲蝽成虫存活时间和捕食功能
城市住区规划建设偏重于空间区位优劣、环境舒适、户型合理和公共服务设施配套齐全等因素,而对于作为隐性公众利益的防灾系统效能问题,通常情况下除了满足最基本规范要求外,鲜少受到足够重视。对此,本文从系统角度出发,在梳理城市住区安全空间模式的基础上提出基于综合防灾的城市住区安全空间因子层级:首先将防灾阶段划分为预防和应急两个阶段,然后分别对两个阶段中需要应对的不同灾害种类所涉及的空间要素进行分类梳理,接着
15—18世纪欧洲传统园林轴线空间从生成、探索到持续发展的过程中,具备一个从简单到复杂的空间结构,从内向孤立到与周围环境相融合的过程。本文以具有时代先锋性的15—16世纪意大利园林、17世纪法国园林和18世纪英国园林为代表,归纳并总结了园林轴线空间形态与功能、轴线空间与建筑关系、视线与围合边界的关系、造园要素的处理等方面的演变,试图剖析演变过程中轴线空间对多种单元空间和造园要素统一的组织。
采用盆栽试验,研究赤泥、石灰和海泡石对Cd污染土壤的改良效果和水稻光合特性的影响。结果表明:施赤泥、石灰和海泡石均能有效促进土壤交换态Cd的稳定,有利于Cd的固定,其中以