论文部分内容阅读
传统数据挖掘算法,其知识表示方式主要是命题逻辑形式,每一样例以属性-值元组的形式表示,难以表达对象内部之间的复杂关系,并且只能从单一关系中发现模式。但是,大多数现实关系数据库中的信息存储于多个关系中,并且许多复杂模式难以用命题逻辑语言表示。属性-值学习的单表假定无法直接利用这类联系及其蕴涵的信息内容,其算法仅局限于由一张表或关系构成的数据库,不能将那些相对复杂的模式简单地用这种属性-值的格式表现出来,因而无法发现现实世界数据中隐藏的更为复杂的模式。对于许多应用,当在多关系数据中发现模式时,模式自然要涉及多个关系,若使用传统数据挖掘算法,应把数据从多关系中纳入一个单关系中,然后才能进行挖掘。这不仅需要大量的预处理工作和谨慎的设计,并且可能导致信息丢失、语义偏差以及效率降低等问题。多关系数据挖掘算法就是在这种研究背景下应运而生的一种新的研究领域。以ILP为基础的多关系数据挖掘,致力于发现关系数据库中涉及多个关系的复杂模式。多关系数据挖掘可以直接在多个关系上分析数据而无需向单一数据表的转换。由于其模式表示语言采用了一阶谓词逻辑语言,与命题逻辑表示语言相比更具有更强的表达力,能够表达更复杂的模式并方便的利用背景(领域)知识,应用也更为广泛,成为目前研究的热点。本文比较系统和完整的介绍和分析了多关系数据挖掘的研究现状和研究方法,着重研究了如何将传统数据挖掘算法扩展到多关系数据挖掘领域。本文的主要工作如下:①综合前人的工作,根据相关的文献,通过与传统数据挖掘算法进行比较,综述了多关系数据挖掘算法,重点分析了多关系数据挖掘的优势,希望能抛砖引玉,得到更多研究人员的关注。②研究ILP技术,突出了一阶谓词的强大表示能力,并具体实现在国际象棋方面的应用。③分析多关系关联规则,说明算法WARMR的应用,并分析其优缺点。④分析比较如何将传统数据分类和聚类算法扩展到多关系领域。