逻辑半马尔可夫决策过程及Q学习

来源 :金陵科技学院学报 | 被引量 : 0次 | 上传用户:magicylt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
增强学习已经开始向关系增强学习发展,并且产生了许多新的算法。这些方法是将命题表达提升为关系或计算逻辑的表达。提出了一种新的表达形式,称为逻辑半马尔可夫决策过程。它是将逻辑程序与半马尔可夫过程相结合。在此框架中,抽象(状态或行动)是至关重要的,并且提出了对于逻辑半马尔可夫决策过程的Q一学习算法,给出其收敛证明。这种框架对在关系增强学习发展中处理时间连续方面提供了一个合理的基础。
其他文献
运移相态是运移特征的主要标志。排烃量和聚集量也只有依据一定的运移相态才能计算。天然气在地下主要呈什么相态运移,决定于地下的温度、压力、生烃量、孔隙度、溶解度以及
设计了基于物联网的3D RGB光立方控制系统,实现了对组合式彩色LED光立体的无线控制,其中通过手机APP设计显示图案,通过单片机控制无线传输模块接受APP传输的显示图案并控制LED立方体显示3D效果。该系统能实现三维真彩色立体动态显示各种图案、以3D RGB LED光立方为单元任意组合光立方的大小,具有光通量一致性好、能远程控制,可实时修改图案的优势。APP控制界面操作简单直观,通过物联网无线控
万维网服务语义标注和匹配算法的研究成果大都是基于本体技术,但存在复杂度高等不足。提出了用描述概念特征的特征词集的语义相似性计算来间接判断概念的相似性方法,并以此方
背景与目的随着社会工业化的不断发展和社会人口老龄化,肺癌的发病年龄也出现了年轻化和老龄化的趋势,因此对不同年龄肺癌病人的治疗方式也应有所不同。近年来,对于青年肺癌和老
目的临床分析耐多药肺结核产生的相关因素和不同程度耐多药(MDRXDRTDR)肺结核病个体化治疗效果。方法采取回顾性分析。选择具有24个月临床观察结果者104例。采用计算机X^2检验
<正> (二)地球演化的板块构造阶段假说与全球油气富集规律的探讨全球油气资源有规律地富集在与深部壳—幔活动有关的板块构造活动带和有机物快速埋藏的沉降带的一致性,揭示了
本文分析了四川盆地大中型气田分布特点,探讨了川东高陡构造区构造和气藏模式。从构造发育期与成烃期的配置、断裂发育特点、天然气圈闭资源量潜力及有利勘探区带评价等方面
在物理学中模拟均匀的多孔介质流时会遇到一类一维抛物型反问题,该问题由一个含一未知边界条件的抛物型方程以及在某指定内点上测量得到的特定数据条件所构成。为了能够更好
DF8B型内燃机车微机系统数字量输入插件频繁烧损,造成机车无功率故障,影响机车运用,打乱运行秩序。通过实地调查取证及模拟实验,查找故障原因,剖析插件工作原理,研究设计电路
本文从探区生油、储集、圈闭及油气运移等油气藏形成基本条件入手,结合构造发育史,分析了主要油气藏的成因。提出生油凹陷、较大储集岩体、较好的盖层及继承性发育的背斜是控