连续时间马尔可夫决策过程的折扣模型

来源 :数学学报 | 被引量 : 0次 | 上传用户:shshay
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文考虑的是转移速率族任意且费用率函数可能无界的连续时间马尔可夫决策过程的折扣模型.放弃了传统的要求相应于每个策略的Q-过程唯一等条件,而首次考虑相应每个策略的Q-过程不一定唯一,转移速率族也不一定保守,费用率函数可能无界,且允许行动空间非空任意的情形.本文首次用"α-折扣费用最优不等式"更新了传统的α-折扣费用最优方程,并用"最优不等式"和新的方法,不仅证明了传统的主要结果即最优平稳策略的存在性,而且还进一步探讨了(ε>0)-最优平稳策略,具有单调性质的最优平稳策略,以及(ε≥0)-最优决策过程的存在性,得到了一些有意义的新结果.最后,提供了一个迁移率受控的生灭系统例子,它满足本文的所有条件,而传统的假设(见文献[1-14])均不成立.
其他文献
选用挤压铸造法制备mullite/Al 4 5Cu复合材料 ,采用硬度测试 (HB)、差示扫描量热 (DSC)、透射电镜 (TEM)等手段研究了mullite/Al 4 5Cu复合材料的时效特性。结果表明 :莫
空间凸轮的计算机数控 (CNC)加工是现在最为常用的一种加工方法 ,而仿形加工中靠模凸轮的加工也是采用该法进行的 ,粗加工时采用比滚子直径小一些的刀具 ,精加工时就必须使用
本文介绍了流涎机钢带自动调偏、调张控制系统的工作原理和设计思路.对国产设备和进口设备设计方案进行了对比分析,总结出两种方案的优缺点,提出了更新的设计思路供读者参考.
针对带有姿控发动机、在大气层外飞行的拦截器,提出了一种模糊姿态控制律.根据姿控发动机布局,给出了发动机开关逻辑表,考虑到姿控机构具有多级控制能力,基于模糊控制的思想,
该文研究子系统间具有强耦合的线性离散大系统的稳定性.提出一种适合于该类大系统稳定性分析的部分分解法.该方法可将高阶线性离散大系统化为若干个具有单向解耦的低阶子系统
采用MPX-2000型摩擦试验机,在六种常用添加剂的锂基脂润滑下,对HIP-Si3N4/GCr15(热等静压工程陶瓷/GCr15轴承钢)组成的摩擦副进行了定量试验研究,探讨了二硫化钼与膦之星两种
研究了锻后直接冷却及锻后重新加热到 72 0℃水淬后不同时效温度对轿车用同步器齿环组织和性能的影响。结果表明 :经锻后直接空冷、风冷、灰冷及 72 0℃水淬 +15 0~ 2 0 0℃时
讨论了一类受l2范数有界扰动影响的线性离散时变系统H∞故障估计问题.首先将H∞故障估计问题转化为二次型问题,引入相应的Krein空间系统,然后应用Krein空间白噪声估计理论,得
结合福建省仙游抽水蓄能电站的特点 ,对抽水蓄能电站的接入系统 ,电气的接线形式 ,主变容量的选择 ,电动发电机组起动方式的选用 ,换相开关的设置以及二次接线等作进一步的探
全省广大计生协会会员们:“好风凭借力,黔贵涌春潮”。国发2号文件的颁布实施,黔中大地迎来历史上最好的发展机遇期。在党中央国务院的关心支持下.在省委省政府的坚强领导下,全省