关系强化学习研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:hyc1211
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是与传统的监督学习完全不同的学习框架。在强化学习中,agent感知环境的状态并采取相应的动作,同时得到环境的奖赏反馈。agent无需假设任何有关环境的先验知识,而是通过与环境的交互来得到环境的信息,同时以最大化长期的回报为目标。关系强化学习在强化学习的基础之上,引入了一阶逻辑的表示形式,并利用它的抽象特性,来期望获得比传统强化学习更好的泛化性能。   基于前人关于关系强化学习的工作,本文通过对关系强化学习两个子方向的研究,取得了如下的成果:   1.本文提出了使用马尔科夫逻辑网(MLN)的强化学习-RLMLN的算法框架。马尔科夫逻辑网结合了归纳逻辑规划(ILP)和统计学习的优点,给出了由基本原子来构造和学习概率依赖模型的方法,为我们在强化学习中引入先验知识提供方便。我们利用了MLN这方面的能力,把它和一种传统的强化学习方法-时间-差分(TD)方法结合起来,形成了新的关系强化学习的框架。实验结果表明,RLMLN方法能够有效的加快学习速率以及提高传统强化学习的稳定性。   2.本文提出了对使用一阶逻辑回归树的增量式的TG算法的一种改进-SBIFDT算法。我们在考察TG算法的时候发现,TG算法为了减小内存消耗以及算法的计算量,会抛弃已经处理过的示例。但同时这种做法会导致算法在学习初期容易被噪音所干扰,从而使算法收敛缓慢,并具有不稳定性。我们通过在回归树中保留节点对应的示例的做法,使得叶子节点不再仅仅依靠统计量作为分割的判据,而是以相应的整个示例集合做为标准,从而可以更为准确的进行节点的分裂。实验结果表明,SBIFDT算法可以比标准的TG收敛更快,同时具有更好的稳定性。
其他文献
随着经济活动的不断发展,人们对道路交通系统的依赖越来越强,交通拥堵(trafficcongestion)成为世界各大城市面临的严峻问题。近年来智能交通系统(IntelligentTrafficSystem,ITS)
细分曲面作为一种几何外形表示方法,具有交互直观、整体光滑、任意拓扑等优势,在影视特效、三维游戏和数字媒体内容创作等行业中得到了广泛的应用。细分曲面是递归定义的,这与当
如今,软件系统的复杂度越来越大,而对软件系统的可靠性、时效性的要求也越来越高。如何在保证软件产品质量的前提下有效控制产品的开发和维护成本,是企业提升市场竞争力的关键。
如今,随着计算机和互联网的蓬勃发展,给人类的生活带来了革命性的变化。而不论是计算机基础应用还是互联网,表示和查找已经成为大多数计算机应用的核心。BloomFilter是一种空间
近年来,随着传感器网络和RFID技术的发展,基于数据流的应用已经无所不在。数据流上的应用大多是监控型的,并且这些监控任务一般是简单事件的组合,但简单的数据流管理系统(DSMS)一
随着定位技术的普及和无线传输技术的发展,大量轨迹数据正以各种方式快速产生和收集起来,并被广泛用于基于位置的服务(LBS)、无人驾驶、动物行为研究、气象预测和城市规划等领
特征的表达和融合是计算机视觉算法中的两个重要部分。例如,在基于骨架的人体行为识别中,如何表达三维骨架的几何关系对于行为识别效果有至关重要的影响。然而很多现有的研究都
文本倾向性分析是自然语言处理一个十分重要的问题,在信息过滤,电子商务,观点搜索,自动问答等领域具有广泛的应用场景。 本文主要考察句子一级的观点自动抽取和倾向性自动识别
博客是一种基于RSS技术的信息交互平台,目前发展极为迅速。博客作者常常就感兴趣的话题发表文章、做出评论,对感兴趣的其他作者添加为好友,这些特征行为构成了潜在的博客社区。
稀疏数据是指包含大量空值的数据,具有维度高、稀疏、模式易变等特点。稀疏数据在实际应用中的大量出现给现代的RDBMS带来了巨大的挑战。在各类海量数据管理系统中,如何设计稀