离散时间马尔可夫决策过程最优平稳策略的灵敏度分析及其应用

来源 :中山大学 | 被引量 : 0次 | 上传用户:zexuan123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文主要是研究离散时间马尔可夫决策过程最优平稳策略的灵敏度分析及其应用。 全文主要内容由理论基础和实例应用两部分组成。 本文介绍了离散时间的马尔可夫决策过程(DTMDP)的数学描述和决策规则,回顾了线性规划与灵敏度分析的知识,借助定义最优性方程,分别给出了DTMDP折扣模型与DTMDP平均模型这两种常见的DTMDP模型用线性规划问题的描述和用线性规划寻优的算法,也分别论证了这两种DTMDP模型中最优平稳策略与对偶规划最优解的关系,进而以运筹学中的灵敏度分析理论为基础,分别研究了这两种DTMDP模型最优平稳策略的灵敏度分析,其中对DTMDP平均模型还分遍历链、单链、多链三种情况来讨论,并分别通过实例来说明这种灵敏度分析方法的可行性应用。
其他文献
设MR是一个右R模,L为一个模类,n为非负整数,S=End(MR)。本文研究了sM相对于L类的凝聚性,推广了许多已知结论。
自从Mackey和Glass首次发现时滞系统的混沌现象以来,时滞混沌系统引起了人们浓厚的兴趣。1990年L.M.Pecora和T.L.Carroll开创性地提出了混沌同步的概念之后,有关混沌同步的研究
学位
阿基米德铺砌是指每个铺砌元都是正多边形,且每个铺砌顶点的顶点特征都相同的边对边铺砌,其有且仅有11种,按照顶点特征分别记为:(44),(36),(63),(34.6),(3.6.3.6),(33.42),(32.4.3.4),(
自治区党委讲师团,是自治区党委实施在职干部政治理论和形势任务教育的一个职能部门。目前,在新的形势和任务面前,讲师团的工作正面临着新的挑战。主要表现为,除了来自形势变
近些三十年来,无约束优化计算方法已成为科学、工程、商业等诸多领域中广泛研究的课题。如何设计快速有效的无约束优化算法已经成为优化工作者甚为关心的问题。进化算法是一
本文主要研究具无穷延滞的脉冲泛函微分系统在现代科技诸多领域,如控制系统,物理学,化学,人口动力学,生物学,工业技术,经济学中,许多实际问题的数学模型都可以归结为脉冲泛函微分系统
学位
1998年伍鹏程在文章《On increasing functions,Bloch functions and normal func-tions》中研究了Bloch函数和normal函数的判别准则时引入了一个增函数,2001年伍鹏程和乌兰哈
本论文主要研究一族拟共形映射的二阶变分,在已有成果的基础上进行了进一步探索,得出了复平面上一族特定的标准拟共形映射关于参数t在原点处的二阶变分表达式。主要方法是对原