论文部分内容阅读
数据挖掘是信息技术自然演化的结果,它是指从大量数据中挖掘出来隐含的未知的、有价值的模式或规律等知识的复杂过程。在这过程中,对数据的分类是数据挖掘领域研究的重要课题。目前用于分类的方法有很多种,如决策树方法、关联规则、贝叶斯网络、遗传算法、神经网络、粗糙集方法等等。分类方法以其算法的基础理论清晰、易被人们理解以及容易转换成分类规则等优点而被广泛研究与应用。多关系数据挖掘MRDM(Multi-Relational Data Mining)的研究领域涉及多个学科,它在由多张表构成的关系数据库中进行知识发现。挖掘有复杂结构化对象构成的数据也属于该研究范畴,因为在一个关系数据库中要把这些目标数据进行标准化表达需要用到多张表。多关系数据挖掘旨在将一些已存在的并较为成熟的学科知识整合在一起,如归纳逻辑程序设计ILP(Inductive Logic Programming)、知识发现KDD(Knowledge Discovery of Database)、机器学习、关系数据库等等,以此来为挖掘多关系数据生成新的方法。而本文是将核函数和基于距离的方法相结合构造一个新的算法。因此,本文提出一种连续属性的多关系数据分类算法。在数据库中数据表中的元组数据有的是离散型的字符型;如人的名字、住址;而有的则是连续型的数值型,如人的身高、体重。本文仅针对连续属性来考虑,采用这样的策略是因为本文就可以用欧式距离公式来计算对应元组的距离。本文所提出的这个算法实际上也是一种变形的基于距离的方法,由于某类数据分布是会呈现一定的规律,即属于某一类数据就一定会分布在一起,通过计算这些元组内对应属性的距离就可以判断这些元组是否属于同一类。本文又借鉴了支持向量机的思想:一个二维的数据表,可以用一个表来表示,虽然是可以看清楚这些数据是什么关系,但不是很直观,如果在笛卡尔坐标系来表示这些表中的数据,就可以很直观地看到属于同类数据在图上呈现出来的分布是很有规律的,如果这些数据线性可分,用一条直线就能很好分开这些不同的点,否则不能用一条直线将其分开,但可以用曲线来将不同类的点分开。对数据库中不同的数据表,可以将数据表的属性看成是N维空间的坐标轴,将数据表中的元组看成是N维空间中的一个点,然后再用一个球体来将某类数据包括在这个球内。由于N维空间的情况很复杂,本文允许存在一些错误的分类,但这个错误率必须是在用户所允许的范围之内,然后用这个球体的中心和这个球的半径就可以表示这类数据。凡是到这个球心的距离小于或等于这个球半径的点都属于这个类。同时,本文将凡是满足同类半径可达的球体尽量将其合并。由于支持向量和核函数相结合可以达到很好的效果,本文作者尝试将核函数的方法也用进来,从而希望可以得到更好的分类效果。