多目标约束连续时间马氏决策过程的折扣模型

来源 :中山大学 | 被引量 : 0次 | 上传用户：daliangengbo

【摘要】

：

　　本文研究的是具有可数状态空间、紧的行动空间、有界转移率函数及上半连续报酬率函数的多约束条件马尔可夫决策过程。目的是解决在其它的报酬率函数的折扣期望满足约束条

【作者】

：

刘冰冰

【机构】

：

中山大学

【出处】

：

中山大学

【发表日期】

：

2005年期

【关键词】

：

马尔可夫决策过程有界转移率函数折扣准则 M-随机平稳策略多约束条件

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　本文研究的是具有可数状态空间、紧的行动空间、有界转移率函数及上半连续报酬率函数的多约束条件马尔可夫决策过程。目的是解决在其它的报酬率函数的折扣期望满足约束条件时，使目标报酬率函数的折扣期望最大的最优决策的存在性问题。我们将在文章中提出一些假设以保证约束最优策略的存在，也进一步证明存在平稳的约束最优策略，而且约束最优平稳策略可选择的行为的个数不会超过马氏平稳决策所采用的行为个数加上约束条件的个数。文章是通过模型转换，把连续时间模型转换成离散时间模型，再通过解决转换后的问题来解决原问题的。最后我们通过一个例子进一步说明本文所得的结果。

其他文献

与无向图及有向图中距离有关的三个问题

本文主要研究了与无向图及有向图中距离有关的三个问题：(1)Km∨Kn(m≥1，n≥1)的最小直径定向，(2)有向图中不相交的拟核，(3)离心有向图. 对于图G，设D为G的具有最小直径的定向图，

学位

最小直径定向拟核汇点有向图无向图

有可接受服务的负顾客的M/G/1休假排队系统

　　本文研究带有可接受服务的负顾客的M/G/1休假排队系统。这系统有一个服务器，它交替地处于正常(工作)状态和休假状态，其工作时间和休假时间分别服从指数分布和一般分布，利用

学位

负顾客补充变量法休假时间排队系统服务器

谈初中信息技术差异教学

随着时代的发展,对教学技术提出了更高的要求,在教学过程中要充分地关注学生的差异性,针对不同的学生制订不同的教学策略,这样才能满足不同学生之间的需求。初中信息技术课程

期刊

初中信息技术差异性教学

GI<'x>/M<'b>/1/N排队系统

　　本文首先使用补充变量法，对部分拒绝和全部拒绝情形，分别得到稳态下系统的状态转移方程，通过取拉普拉斯变换并利用归一化条件，得到一个很有用的等式，利用这个等式，进一步得到系

学位

批到达批服务缓冲器容量补充变量法嵌入马氏链排队系统

转型发展对应用技术型民办本科培养模式改革的思考

新建本科院校(含地方本科、独立院校、民办本科高校),成建制的向职业教育—应用技术本科转型,应用技术型本科教育作为我国高等教育承上启下的重要环节,它的培养模式就显得尤

期刊

应用技术型培养模式改革

两类不确定非线性系统的自适应动态面控制

不确定非线性系统的跟踪控制问题是一个重要课题，越来越受到学者的重视和关注．在系统的控制器设计环节，我们经常使用自适应后推技术．而后推技术因其反复对虚拟控制器求导，有“微分

学位

不确定非线性系统自适应控制动态面控制

高中数学“问题解决教学”的有效策略探究

所谓“问题解决教学”,即以问题为主线,引导学生通过自主探索、思考讨论、合作交流等方式,对所给问题加以分析研究、拓展延伸,变形迁移等,从而提高学生知识运用能力、分析与

期刊

高中数学问题解决教学解决问题的能力学生综合能力学生问题意识自主探索运用能力有效策略引导学生学习能力学生知识拓展延伸数学教学教学效率合

数学算法在企业资源规划二次开发中的应用

本文对数学算法在企业资源规划二次开发中的应用进行了研究。文章把计算上的需求和数学上模型结合起来进行了阐述，其中的笛卡尔乘积在处理数据的上有很深的指导和应用意义，同时

学位

企业资源规划供需链管理笛卡尔乘积二叉树

西部创业不畏难——记共产党员徐健

在“陇中苦,甲天下”的定西,老百姓爱说一句民谣:洋芋开花赛牡丹。因为,洋芋是贫困的定西人民多年来赖以生存的主要食物,人们对洋芋寄予了无限的期盼,希望它品质好、产量高

期刊

徐健赛牡丹马铃薯产业国家级贫困县硕士研究生时间已过甲天下主要食物研究生党支部陇中

创新课程设计实现快乐军训 ——高中生“快乐军训”的实践与反思

综合2014年国内学生军训热议案例,分析成因.石家庄市第二十七中学全面实施高中新课改,军训作为社会实践课的内容之一,被学校纳入为必修课程,通过与组训部队教官不断摸索实践,

期刊

军训必修课程快乐军训实现六化

多目标约束连续时间马氏决策过程的折扣模型

与本文相关的学术论文