基于方差约束的离散时间马尔可夫决策过程

来源 :暨南大学 | 被引量 : 0次 | 上传用户:liongliong510
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文研究的是状态空间为可数空间,行动空间为Borel空间,报酬函数非负的方差约束的离散时间折扣马尔可夫决策过程。目标是在可数状态空间下,在折扣总报酬的方差受约束时,寻找策略使得期望折扣总报酬达到最大。问题的难点在于证明方差受约束时最优策略的存在性。本文在解决最优策略的存在性问题时,我们首先对离散时间折扣马尔可夫决策过程的方差公式进行推导,求得离散时间折扣马尔可夫决策过程的方差的表达式可为:即方差又可看做折扣因子为α2,费用函数为h(x,g)的期望折扣总费用函数,然后对新的方差表达式进行常数约束,也相当于对新的期望折扣总费用进行常数约束,从而使得方差受约束的期望折扣总报酬最优策略的存在性转化为期望折扣总费用受约束时总报酬最优策略的存在性。在马尔可夫决策过程的受约束优化问题中,通过采用拉格朗日乘数法证明存在一个随机简单策略使得期望折扣总报酬达到最大,从而得到方差受约束时离散时间折扣马尔可夫决策过程最优策略的存在。最后通过方差受约束的实例对本文的结论进行说明。
其他文献
学位
学位
学位
农业是国民经济发展的基础。改革开放以来,金乡县把大蒜产业作为农业发展的主要产业,出台扶持政策、规范交易市场、做强大蒜品牌,大蒜产业化实现了从零散种植到全产业链发展的历史性转变,开始进入高质量发展的新时期。在这一过程中,金乡县政府通过发挥职能作用,为大蒜产业化发展起到了不可替代的作用。目前,金乡县大蒜产业化仍面临不少发展的困难和问题,尤其表现在政府职能如何更加有效的履行。这就要求金乡县政府必须持续优
由人口转变理论可知,人口老龄化是社会发展的必然趋势,是社会人口转变的一个重要特征,也是社会进步的一个重要标志。人口结构的转变对社会经济发展影响深远,人口老龄化与经济发展的关系也成为重要的研究主题。根据党的十九大部署,我国制定了《国家积极应对人口老龄化中长期规划》,并将人口老龄化的应对上升为国家战略。本文着眼于人口年龄结构对国际贸易的影响,以比较优势理论、生命周期理论和双缺口理论等为依托,探讨了我国
随着科学技术的快速发展,我们对互联网的使用越来越普及,各种应用也随之诞生,例如云计算,人工智能,智能家居,虚拟现实,无人驾驶等等,这些技术的发展和应用都离不开大数据和数据流量。这是一个大数据时代,各种新型带宽业务的发展导致数据容量的增加逐年成爆发式的增长,在数据通信中,不管是长距离通信还是短距离通信系统中对大容量的数据通信需求都越来越大,这就给目前的光纤通信系统带来了巨大的压力和挑战。根据思科全球
采用正则系综蒙特卡洛方法模拟等量4种C8芳烃分子分别在SiFAU和BaX分子筛上的吸附行为,并结合量子化学计算和波函数分析,基于分子筛组成和结构、C8芳烃分子结构和电子分布特征进行吸附机理研究。蒙特卡洛模拟结果表明:4种C8芳烃分子的密度分布主要在分子筛超笼内,吸附能分布近似为正态分布,吸附状态多样化;SiFAU上吸附位随机且范围广,但对二甲苯无选择性;BaX上吸附位集中在超笼内的Ba附近,平均吸
随着互联网及信息时代的发展,由于劳动关系中涉及到的个人信息的范畴已超出隐私信息的范畴,故仅关注劳动关系中对劳动者隐私权的保护已不再足够,劳动关系中个人信息保护的范围逐渐成为新的问题。在目前的用工环境中,无论是在劳动关系的建立、存续以及终止阶段,用人单位对劳动者个人信息的收集和使用的方式不断更新,范围也逐渐扩大,导致引发了许多争议与问题。然而当前中国的法律并没有对劳动者的个人信息权做出明确的规定,也
多孔有机聚合物(POPs)因其高的比表面积和稳定的化学性能而受到广泛关注。由于其具有丰富的苯环结构、高的比表面积、均匀的孔径分布和永久性的孔隙等一系列特点,使其成为适合吸附CO2气体的吸附剂。主要综述了具有代表性的POPs对二氧化碳的捕获,介绍了它们的设计方法和结构特点,并提出了总结意见和未来的研究方向。
ZSM-5分子筛由于具有独特的三维孔道结构和良好的催化性能,而成为一种非常重要的择形催化材料,并被广泛应用于石油化工过程中。通过实验合成制备一种新型高硅ZSM-5分子筛,并考察了焙烧条件对质量的影响,对分子筛各项理化性质进行了表征,同时按照推荐工艺开展了工业试生产,生产出合格的产品,显示出较好的应用前景。