论文部分内容阅读
分类是数据挖掘研究中的一个基本任务,关联规则挖掘是数据挖掘研究中的一个重要领域,把关联规则挖掘用于分类问题开辟了数据分类的一条新路。常见的基于关联规则分类算法通常在训练数据集上生成关联规则的全部集合,然后选择一个高质量的规则子集作为分类规则集去分类和预测测试数据集。研究表明,基于关联规则分类具有高准确率和强适应性的特点。但是,在生成的分类器中,往往会产生大量的分类规则,而其中很大一部分的分类规则可能对分类并没有好处。并且,有时因为选取单一高置信度的规则,使分类结果产生了过分拟合。因此,基于关联规则的分类算法,其关键在于分类器也就是分类规则集的建立。而且对挖掘得到的分类规则集需要有不同的度量去评估其分类性能。如何产生更有意义的关联规则,如何使用有意义的关联规则对测试数据集进行分类,是本文研究的主要内容。本文提出了一种新的关联分类算法CPCAR。该方法对FP-Growth算法进行改进,在频繁项集产生的过程中,引入正相关性的判断,使最后生成的频繁项集是正相关的,并使用正相关的频繁项集得到正相关的初始分类规则集。为了提高分类准确率和效率,再利用置信度对初始分类规则集进行规则选取,生成由正相关关联规则组成的分类器。分类时,本文算法首先在每个分类器中选取分类规则,这些分类规则可以分类测试事务,每条分类规则都有一个x~2权值,然后计算每个分类器中选取出的分类规则的权值和,比较权值和最大的分类器的类标号与测试事务的类标号,两个类标号一致则表示分类正确。最后根据正确分类的测试事务数与总测试事务数得出本文算法在某事务数据集上的分类准确率。实验表明,虽然本文算法在生成分类规则集的时候,删除了大量的关联规则,但是在UCI机器学习的14个数据集中,最终的分类准确率可以与C4.5和CMAR相媲美,且算法运行的时间开销明显降低。