逻辑马尔可夫决策过程的正则条件概率理论

来源 :南京大学学报:自然科学版 | 被引量 : 0次 | 上传用户:UltraSparc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
增强学习已经开始向关系增强学习发展,并且产生了许多新的算法.大部分方法将命题表达提升为关系或计算逻辑的表达.这些方法已经表现出许多好的性质,但是相关的理论分析目前还缺乏,即为什么这些关系的增强学习具有良好的性质,因此提出基础马尔可夫决策过程和逻辑马尔可夫决策过程的测度空间结构,利用现代概率论中条件数学期望和正则条件概率理论建立基础和逻辑两种马尔可夫决策过程之间的深刻联系,从而证实了逻辑马尔可夫决策过程中的最优策略在某种平均意义上是相应的基础马尔可夫决策过程的最优策略.最后由实例分析得出逻辑马尔可夫决策编程
其他文献
通过胎侧的薄膜模型和曲梁弯曲模型的力学分析,分别推导出了径向刚度和侧向刚度的计算公式,验证了胎侧具有随变形而减弱的非线性刚度特性,说明在直接模态参数的建模中,应考虑
<正> 核桃树是珍贵的木本油料树种,在我国栽培极为广泛,但在播种时种实适宜的放置方法问题,在生产上还没有引起人们的注意。在国内外虽有些研究,但说法不一。如苏联&#183;&#1
化工原理是林产化学加工专业的一门重要的技术基础课,研究的是化学工业生产过程中带有共性的几个基本过程(即单元操作)的基本原理、基本规律及常用设备的结构、性能和设计计
提起武汉餐饮业,很容易想到"老通城"、"小桃园"等老字号名吃,还有"小蓝鲸"、"太子""三五"等一批新秀.但有学者分析,武汉餐饮业空前繁荣的背后却隐藏着许多危机,武汉餐饮业有
以普通波导管内部嵌入弹性薄膜为基本单元结构,构造了零折射率声学超材料.研究表明,在频率为fm=453.64Hz时能实现等效质量密度为零的零折射率超材料.在零折射率超材料两端接
针对具有柔性臂和柔性关节的机器人协调操作刚性负载,由载荷分配法分配载荷,以物体实际的质心位置为边界条件并且等于期望的轨迹,建立了具有柔性臂和柔性关节的机器人臂协调
在现有微观经济学的文献中我们可以看到,弧弹性的概念是基于在计算同一区间内需求(供给)价格弹胜时,由于起始点的选取不一样,而所得弧弹性的计算结果不同的原因而提出的.弧弹
针对基于 CORBA的测量系统 ,提出以 DMIS作为系统测量数据和指令的内在描述语义 ,在系统 DMIS IDL( Interface Definition Language)接口定义和 IDL接口对象实现中按 DMIS语义来定义和使用测量系统内的测量信息 ,解决测量系统内各组成子系统测量信息通讯格式不一致的问题。根据 DMIS V2 .3的测量过程描述语句 ,定义和建立 DMIS对象、DMIS
非晶态合金材料具有良好的软磁特性,被广泛用作各类传感器的敏感材料.对基于非晶态合金应变计的工作机理、磁输出特性进行了理论分析,设计了相应的磁测系统,并利用TM-M型的Fe
提出了一种面向信息管理和高效检索的"四段式"事物编码模型,该模型能够与PDM系统中的分类管理模块功能相得益彰.对编码模型的UML建模则使模型的可操作性更趋于实际,从而为企