论文部分内容阅读
随着社会信息化程度的提高,数据量呈指数增长,从大量数据中挖掘有价值的知识在当今信息时代具有重要意义。
在数据挖掘的各个分支中,关联规则挖掘和分类挖掘是两个高度活跃的领域,其应用范围也非常广泛。因此,可以利用关联和分类的相似性用关联挖掘算法来完成分类任务,这种分类算法就是关联分类挖掘算法。关联分类法将关联规则挖掘技术应用于分类领域,构建了一种新的更准确的分类器。由于关联规则挖掘在挖掘大量数据之间的潜在相关性方面的优势和良好的扩展适应性,使得在其基础上的关联分类技术有广阔的应用空间。自1998年出现第一个基于关联规则的分类算法(CBA)以来,关联分类算法的设计及应用研究一直非常活跃。目前,在关联分类问题上存在的共识是:关联分类的准确度总体上显著地高于传统的决策树分类,但关联分类存在的主要问题是产生太多的关联规则,导致计算速度慢、内存开销大、分类模型难以理解。
本文基于上述的研究背景,主要研究了基于原子关联规则的分类新技术CAAR(Classification based on Atomic Association Rules)。CAAR基于人工智能原理,模仿人类利用“突出特征和先易后难策略”进行分类,消除了关联规则挖掘时的“组合爆炸效应”。就算法的性能来看CAAR有不俗的业绩,其分类的准确度和模型的可理解性都优于决策树与CBA。本文主要进行了CAAR算法的抗干扰性研究,并提出了基于属性加权和附加属性的两种改进算法,提高了分类模型的预测准确性。本文的主要研究工作如下:
(1)综述了关联分类技术的国内外研究现状。
(2)对分类问题进行了形式化描述,分析了现有关联分类算法的分类原理和优缺点,并给出了分类器的构建步骤。
(3)在不同数据集上对CAAR算法的抗干扰性进行了测试。
(4)在原CAAR算法的基础上,提出了一种基于属性加权的分类算法,并测试了该算法的分类准确性。
(5)数据集中通过添加附加属性的方法,提高了CAAR算法对多属性依赖数据集的分类准确度。
本文的创新之处是:
(1)将属性加权的思想引入到了原子关联规则分类算法中。在CAAR分类的基础上,得到分类误差率,并计算得出幅度调整因子,通过调整权重系数来提高分类的准确度。
(2)通过在数据集中增加附加属性的方法,提高了CAAR算法在多属性依赖数据集上的分类准确度。
本文的内容分为六章,第一章介绍了本课题的研究背景和国内外研究现状;第二章介绍了相关的概念、关联分类领域的背景知识和两种经典的分类算法;第三章介绍了原子关联分类算法的分类原理及算法设计;第四章主要进行了原子关联分类算法的抗干扰性实验,并与其他算法进行了实验结果的比较;第五章介绍了两种改进的原子关联规则分类算法,给出了改进算法的具体步骤,并进行了实验测试;最后总结了本文的工作,描述了进一步的研究方向。