关系强化学习研究

来源 :南京大学 | 被引量 : 0次 | 上传用户：hyc1211

【摘要】

：

强化学习是与传统的监督学习完全不同的学习框架。在强化学习中，agent感知环境的状态并采取相应的动作，同时得到环境的奖赏反馈。agent无需假设任何有关环境的先验知识，而是通过

【作者】

：

葛屾

【机构】

：

南京大学

【出处】

：

南京大学

【发表日期】

：

2008年期

【关键词】

：

关系强化学习马尔科夫逻辑网 RLMLN算法一阶逻辑回归树内存消耗

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

强化学习是与传统的监督学习完全不同的学习框架。在强化学习中，agent感知环境的状态并采取相应的动作，同时得到环境的奖赏反馈。agent无需假设任何有关环境的先验知识，而是通过与环境的交互来得到环境的信息，同时以最大化长期的回报为目标。关系强化学习在强化学习的基础之上，引入了一阶逻辑的表示形式，并利用它的抽象特性，来期望获得比传统强化学习更好的泛化性能。　　基于前人关于关系强化学习的工作，本文通过对关系强化学习两个子方向的研究，取得了如下的成果：　　 1.本文提出了使用马尔科夫逻辑网(MLN)的强化学习-RLMLN的算法框架。马尔科夫逻辑网结合了归纳逻辑规划(ILP)和统计学习的优点，给出了由基本原子来构造和学习概率依赖模型的方法，为我们在强化学习中引入先验知识提供方便。我们利用了MLN这方面的能力，把它和一种传统的强化学习方法-时间-差分(TD)方法结合起来，形成了新的关系强化学习的框架。实验结果表明，RLMLN方法能够有效的加快学习速率以及提高传统强化学习的稳定性。　　 2.本文提出了对使用一阶逻辑回归树的增量式的TG算法的一种改进-SBIFDT算法。我们在考察TG算法的时候发现，TG算法为了减小内存消耗以及算法的计算量，会抛弃已经处理过的示例。但同时这种做法会导致算法在学习初期容易被噪音所干扰，从而使算法收敛缓慢，并具有不稳定性。我们通过在回归树中保留节点对应的示例的做法，使得叶子节点不再仅仅依靠统计量作为分割的判据，而是以相应的整个示例集合做为标准，从而可以更为准确的进行节点的分裂。实验结果表明，SBIFDT算法可以比标准的TG收敛更快，同时具有更好的稳定性。

其他文献

基于在线局部加权学习的实时交通流预测方法的研究与实现

随着经济活动的不断发展，人们对道路交通系统的依赖越来越强，交通拥堵(trafficcongestion)成为世界各大城市面临的严峻问题。近年来智能交通系统(IntelligentTrafficSystem，ITS)

学位

智能交通系统交通流预测模型在线局部加权学习系统设计实时监测

细分曲面的实时绘制及其应用

细分曲面作为一种几何外形表示方法，具有交互直观、整体光滑、任意拓扑等优势，在影视特效、三维游戏和数字媒体内容创作等行业中得到了广泛的应用。细分曲面是递归定义的，这与当

学位

细分曲面实时绘制硬件细化位移映射自由变形

基于软件产品线方法的eXVantage产品家族的设计与实现

如今，软件系统的复杂度越来越大，而对软件系统的可靠性、时效性的要求也越来越高。如何在保证软件产品质量的前提下有效控制产品的开发和维护成本，是企业提升市场竞争力的关键。

学位

软件产品线软件项目eXVantage工具用户需求动态组装

Bloom Filter技术在弹性重叠网络中的应用研究

如今，随着计算机和互联网的蓬勃发展，给人类的生活带来了革命性的变化。而不论是计算机基础应用还是互联网，表示和查找已经成为大多数计算机应用的核心。BloomFilter是一种空间

学位

Bloom Filter数据集合数据表示数据查找弹性重叠网络

数据流上复杂事件处理系统Eagle的设计与实现

近年来，随着传感器网络和RFID技术的发展，基于数据流的应用已经无所不在。数据流上的应用大多是监控型的，并且这些监控任务一般是简单事件的组合，但简单的数据流管理系统(DSMS)一

学位

复杂事件查询Argus系统系统结构查询需求序列构造

大轨迹数据管理与分析系统研究

随着定位技术的普及和无线传输技术的发展，大量轨迹数据正以各种方式快速产生和收集起来，并被广泛用于基于位置的服务(LBS)、无人驾驶、动物行为研究、气象预测和城市规划等领

学位

轨迹数据数据库系统分布式计算流式计算

基于骨架的人体行为识别

特征的表达和融合是计算机视觉算法中的两个重要部分。例如，在基于骨架的人体行为识别中，如何表达三维骨架的几何关系对于行为识别效果有至关重要的影响。然而很多现有的研究都

学位

人体行为识别骨架几何特征分数融合

基于机器学习的文本倾向性分析及产品评价信息挖掘

文本倾向性分析是自然语言处理一个十分重要的问题，在信息过滤，电子商务，观点搜索，自动问答等领域具有广泛的应用场景。本文主要考察句子一级的观点自动抽取和倾向性自动识别

学位

产品评价信息数据挖掘倾向性识别话题分析机器学习算法文本倾向性支持向量机

COMMIX系统中基于多特征的博客社区发现子系统的设计与实现

博客是一种基于RSS技术的信息交互平台，目前发展极为迅速。博客作者常常就感兴趣的话题发表文章、做出评论，对感兴趣的其他作者添加为好友，这些特征行为构成了潜在的博客社区。

学位

博客社区发现频繁模式结构链接聚类分析发现算法抽取算法

关系数据库CoDB中稀疏数据管理机制的设计与实现

稀疏数据是指包含大量空值的数据，具有维度高、稀疏、模式易变等特点。稀疏数据在实际应用中的大量出现给现代的RDBMS带来了巨大的挑战。在各类海量数据管理系统中，如何设计稀

学位

关系数据库稀疏数据管理机制属性检索系统设计

关系强化学习研究

与本文相关的学术论文