多目标约束连续时间马氏决策过程的折扣模型

来源 :中山大学 | 被引量 : 0次 | 上传用户:daliangengbo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  本文研究的是具有可数状态空间、紧的行动空间、有界转移率函数及上半连续报酬率函数的多约束条件马尔可夫决策过程。目的是解决在其它的报酬率函数的折扣期望满足约束条件时,使目标报酬率函数的折扣期望最大的最优决策的存在性问题。我们将在文章中提出一些假设以保证约束最优策略的存在,也进一步证明存在平稳的约束最优策略,而且约束最优平稳策略可选择的行为的个数不会超过马氏平稳决策所采用的行为个数加上约束条件的个数。文章是通过模型转换,把连续时间模型转换成离散时间模型,再通过解决转换后的问题来解决原问题的。最后我们通过一个例子进一步说明本文所得的结果。
其他文献
本文主要研究了与无向图及有向图中距离有关的三个问题:(1)Km∨Kn(m≥1,n≥1)的最小直径定向,(2)有向图中不相交的拟核,(3)离心有向图. 对于图G,设D为G的具有最小直径的定向图,
  本文研究带有可接受服务的负顾客的M/G/1休假排队系统。这系统有一个服务器,它交替地处于正常(工作)状态和休假状态,其工作时间和休假时间分别服从指数分布和一般分布,利用
随着时代的发展,对教学技术提出了更高的要求,在教学过程中要充分地关注学生的差异性,针对不同的学生制订不同的教学策略,这样才能满足不同学生之间的需求。初中信息技术课程
  本文首先使用补充变量法,对部分拒绝和全部拒绝情形,分别得到稳态下系统的状态转移方程,通过取拉普拉斯变换并利用归一化条件,得到一个很有用的等式,利用这个等式,进一步得到系
新建本科院校(含地方本科、独立院校、民办本科高校),成建制的向职业教育—应用技术本科转型,应用技术型本科教育作为我国高等教育承上启下的重要环节,它的培养模式就显得尤
不确定非线性系统的跟踪控制问题是一个重要课题,越来越受到学者的重视和关注.在系统的控制器设计环节,我们经常使用自适应后推技术.而后推技术因其反复对虚拟控制器求导,有“微分
所谓“问题解决教学”,即以问题为主线,引导学生通过自主探索、思考讨论、合作交流等方式,对所给问题加以分析研究、拓展延伸,变形迁移等,从而提高学生知识运用能力、分析与
本文对数学算法在企业资源规划二次开发中的应用进行了研究。文章把计算上的需求和数学上模型结合起来进行了阐述,其中的笛卡尔乘积在处理数据的上有很深的指导和应用意义,同时
在“陇中苦,甲天下”的定西,老百姓爱说一句民谣:洋芋开花赛牡丹。因为,洋芋是贫困的定西人民多年来赖以生存的主要食物,人们对洋芋寄予了无限的期盼,希望它品质好、产量高
综合2014年国内学生军训热议案例,分析成因.石家庄市第二十七中学全面实施高中新课改,军训作为社会实践课的内容之一,被学校纳入为必修课程,通过与组训部队教官不断摸索实践,