一种连续属性的多关系数据分类算法

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:yourice
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是信息技术自然演化的结果,它是指从大量数据中挖掘出来隐含的未知的、有价值的模式或规律等知识的复杂过程。在这过程中,对数据的分类是数据挖掘领域研究的重要课题。目前用于分类的方法有很多种,如决策树方法、关联规则、贝叶斯网络、遗传算法、神经网络、粗糙集方法等等。分类方法以其算法的基础理论清晰、易被人们理解以及容易转换成分类规则等优点而被广泛研究与应用。多关系数据挖掘MRDM(Multi-Relational Data Mining)的研究领域涉及多个学科,它在由多张表构成的关系数据库中进行知识发现。挖掘有复杂结构化对象构成的数据也属于该研究范畴,因为在一个关系数据库中要把这些目标数据进行标准化表达需要用到多张表。多关系数据挖掘旨在将一些已存在的并较为成熟的学科知识整合在一起,如归纳逻辑程序设计ILP(Inductive Logic Programming)、知识发现KDD(Knowledge Discovery of Database)、机器学习、关系数据库等等,以此来为挖掘多关系数据生成新的方法。而本文是将核函数和基于距离的方法相结合构造一个新的算法。因此,本文提出一种连续属性的多关系数据分类算法。在数据库中数据表中的元组数据有的是离散型的字符型;如人的名字、住址;而有的则是连续型的数值型,如人的身高、体重。本文仅针对连续属性来考虑,采用这样的策略是因为本文就可以用欧式距离公式来计算对应元组的距离。本文所提出的这个算法实际上也是一种变形的基于距离的方法,由于某类数据分布是会呈现一定的规律,即属于某一类数据就一定会分布在一起,通过计算这些元组内对应属性的距离就可以判断这些元组是否属于同一类。本文又借鉴了支持向量机的思想:一个二维的数据表,可以用一个表来表示,虽然是可以看清楚这些数据是什么关系,但不是很直观,如果在笛卡尔坐标系来表示这些表中的数据,就可以很直观地看到属于同类数据在图上呈现出来的分布是很有规律的,如果这些数据线性可分,用一条直线就能很好分开这些不同的点,否则不能用一条直线将其分开,但可以用曲线来将不同类的点分开。对数据库中不同的数据表,可以将数据表的属性看成是N维空间的坐标轴,将数据表中的元组看成是N维空间中的一个点,然后再用一个球体来将某类数据包括在这个球内。由于N维空间的情况很复杂,本文允许存在一些错误的分类,但这个错误率必须是在用户所允许的范围之内,然后用这个球体的中心和这个球的半径就可以表示这类数据。凡是到这个球心的距离小于或等于这个球半径的点都属于这个类。同时,本文将凡是满足同类半径可达的球体尽量将其合并。由于支持向量和核函数相结合可以达到很好的效果,本文作者尝试将核函数的方法也用进来,从而希望可以得到更好的分类效果。
其他文献
随着计算机图形处理技术的飞速发展和互联网的迅速普及,三维模型正在被广泛地应用并带来可观的经济收益,并且已经成为知识产权保护的重要对象而三维网格数字水印技术正是在这
近日李克强总理在2015年政府报告工作报告中提出了“互联网+”行动计划,“互联网+”引起了广泛的关注,O2O模式作为“互联网+”的主要代表,更是进入了蓬勃发展的时期,国内涌现
模拟器作为计算机体系结构研究中的重要工具,已广泛应用于体系结构研究的方方面面。虽然模拟器具有使用灵活,成本低廉的优点,但由于通过软件来模拟硬件行为,模拟器的执行速度
随着网络技术的进步和用户对业务需求的不断提升,以软交换为核心的下一代网络已成为目前网络发展的热点。当前电信网面临软交换语音和数字融合的问题,也就是下一代网络热点问
无线Mesh网络是一种新型的无线通信网络,具有自组织性和自愈的特点,是多跳的宽带无线网络。无线Mesh网络不同于Ad Hoc网络的特点在于静态节点的引入,Mesh路由器和Mesh终端在计算
电信计费系统是电信运营系统的核心支撑系统,它具有数据量大、关联性强、安全性高、可靠性好等特点。网格计算是下一代分布式计算技术,它为解决大规模的、复杂的计算提供了平台
XML以其强大的描述性、结构化、易扩展、跨平台等特性在互联网和分布式异构环境中得到越来越广泛的应用,逐渐成为数据交换的首选技术,作为一种结构化的数据描述标准,XML为电
交通需求的日益增长给路网通行安全带来了全新的挑战,作为保障车辆行驶安全的传统车辆诊断技术已难以满足目前的实时性安全需求。对车辆进行远程诊断作为解决该问题的有效途
移动Ad Hoc网络又称为移动自组织网络,是一种由带有无线收发装置的移动终端组成的一个多跳的临时性自治系统,工作在无固定结构的环境下。因其特有的无需架设网络设施、可快速
随着网格研究的深入和网格基础设施的发展,在网格上开发了越来越多的功能强大、需要大量资源的科学计算和协同应用。很多网格应用也越来越复杂,具有时间、空间和资源等多种约