无界报酬折扣半马氏决策模型矩最优策略的存在性

来源 :云南大学学报:自然科学版 | 被引量 : 0次 | 上传用户:f6012000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文在矩最优准则下讨论具有可数状态空间和任意行动空间的Lippman型无界报酬折扣半马氏决策模型。对任意ε>0,证明了k阶矩ε-最优平稳策略的存在性,从而一般策略类中的矩最优性等价于平稳策略类中的矩最优性。(k-1)矩最优策略π为(k)矩最优的充要条件是(-1)~(k+1)V_k(π)满足最优方程,这里V_k(π)为使用π时的总折扣报酬的k阶矩。对平稳策略,给出了折扣报酬的各阶矩的递推公式,如果每个状态可用的行动集为有限集,证明了矩最优平稳策略的存在性,并建立了构造所有矩最优平稳策略的迭代算法。
其他文献
在北京城东幽静宜人的亮马河畔,矗立着一座气势磅薄、具有欧式城堡风格的大型建筑物。它占地6000平米,和四周著名的凯宾斯基、昆仑、长城等五星级酒店交相辉映、共同组成了京东地区
逆向思维涨价术逆向思维涨价法,就是反大流而行之,从事物的反面找出路,反向涨价。1994年,香港经济很不景气。不少经营者耐不住沉寂,开始降价销售商品。一行则百效。一时间,“大降价
为了实现高性能计算机系统中各处理节点之间的高带宽低延时的互连通信,基于现有的光器件和光互连技术,提出了一种面向高性能计算机的支持组播的全光互连网络SBOS,同时描述了
提高期刊质量,关键是发挥各期刊的特点。本文主要阐述《云南植物研究》紧密结合本地区植物学科研特色,立足云南,面向全国,努力提高期刊质量,把《云南植物研究》办成具有地区
人工智能技术的三个层次人工智能技术和产品经过过去几年的实践检验,目前应用较为成熟,推动着人工智能与各行各业的加速融合。从技术层面来看,业界广泛认为,人工智能的核心能
利用蒙特卡洛模拟方法,研究了场发射电子枪中的库仑相互作用.计算了这一效应导致的电子能量分布的扩宽(Boersch效应)和虚源位置及尺寸的变化等.为达到足够高的精度,利用了一种
互联网的飞速发展推动了互联网和传统行业的结合,在二者的深度融合当中,给企业的经营发展带来了极大的影响,同 时也给市场营销专业的人才培养与专业教学提出了更高要求。在当
在过去的三四年中,中国的经济有了惊人的增长。自1991年以来,中国的实际国内生产总值的平均年增长率超过了12%。当前经济发展的突出特点是几乎所有的经济活动领域中都在不断
目的:比较全胸腔镜手术(VATS)与传统开胸手术治疗非小细胞肺癌的疗效。方法:随机选取2015年9月~2019年12月全胸腔镜肺癌根治手术患者60例,传统开胸肺癌根治手术患者60例,对其
提出了适应DNA计算的DNA编码问题.对等码长的DNA编码问题的数学模型进行分析.以优化码长作为目标,分析了约束条件.以杂交反应为核心将约束条件分为基本约束和控制生化实验的