论文部分内容阅读
数据挖掘又称数据库中知识发现,是从大量数据中用非平凡的方法发现有用的知识。分类是数据挖掘中的一项非常重要的任务,在商业、金融、电讯、DNA分析、科学研究等诸多领域具有广泛的应用。统计学、机器学习、神经网络等领域的研究者提出了很多分类方法,大部分算法是内存驻留算法,适用于小型数据集。随着数据集的数据量和维数的增加,建立高效的、适用于大型数据集的分类法已成为数据挖掘的一个挑战性任务。 基于显露模式(Emerging Pattern,EP)的分类方法是针对大型数据集的分类提出的,EP是G.Dong和J.Li提出的一种新的知识模式,这些模式能够捕获目标类和非目标类上多组属性之间的不同,具有很好的分类性能。第一个基于EP的分类算法是G.Dong等提出的CAEP算法,此后相继提出了JEP-Classifier、BCEP和DeEPs等一系列基于EP的分类算法。相关研究表明,基于EP的分类算法的平均分类准确率优于决策树等传统算法,显示了EP在分类方面的优越性。 本文提出了一种可调整权值的基于EP的分类方法CEPAW。CEPAW使用基本显露模式(eEP)并聚合eEP的区分能力建立分类器。在聚合eEP的区分能力时,eEP的权值通过训练自适应地选取。训练分为两个阶段:第一阶段的主要任务是挖掘eEPs,构造初始分类器。在EP的选取以及评分函数方面,我们都采用了不同于以往的基于EP的分类算法的方法。第二阶段是权值的自适应调整。开始,所有EP的权值相同。反复地使用初始分类器对训练样本进行分类,并通过考察每个EP对训练样本的分类效果调整EP的权值,直到分类器的分类准确率不能再提高。 为了测试算法的分类性能,使用了UCI机器学习库中的12个数据集作为实验数据集,并将实验结果与NB、C5.0、CAEP、LB以及BCEP算法进行比较。结果表明,CEPAW具有更好的分类准确率,自适应地选取EP的权值比以支持度为权值的评分策略更加合理。当数据分布发生轻微变化时,通过再训练,调整EP的权值,CEPAW可以较好地适应新的数据分布。