论文部分内容阅读
分类是数据挖掘中的一项非常重要的任务,几十年来一直是统计学、机器学习、神经网络和专家系统等领域内的一个重要研究课题。目前在政府组织、科学研究、商业等领域有着广泛的应用。在解决数据挖掘领域中的分类问题时,基于规则的建模技术是很受欢迎的。但是,传统的基于规则的分类算法多数采用顺序覆盖技术来训练分类规则,这种方法有着自身无法很好解决的问题,在稀有类分类中这种问题更加突出。基于此,Ramesh Agarwal和Mahesh V.Joshi于2000年提出了基于规则的两阶段方法,实验结果表明,两阶段方法能够很好地用于分类,特别是在稀有类分类时取得了比其它分类算法更好的效果。 1999年Dong等人提出了一种被称作显露模式(Emerging Pattern,EP)的新的知识模式,并受到了数据挖掘界的广泛重视。基于EP的分类算法通过聚合多个EP的分类能力来分类,综合考虑了不同数据集在多组属性上的差异,能够弥补传统分类方法(如决策树方法)只考虑一组属性而形成的缺陷,取得了很好的分类结果。然而,对于稠密数据集和高维数据集来说,EPs的数量巨大,因而增加了算法的时空复杂度。2000年Fan和Ramamohanarao又提出了一种特殊形式的EP:eEP(Essential Emerging Pattern,基本显露模式),有效地解决了一般形式的EP在分类时的冗余问题,同时又不会丢失太多对分类有用的信息。 本文结合两阶段思想和eEP在分类方面的优势,提出了一种新的分类算法——基于eEP的两阶段方法分类(Classification of Essential Emerging Pattern in Two Phases,CEEPTP)。该算法使用两个阶段挖掘eEP并用于分类,分类时考虑第二阶段对第一阶段的修正作用,这与TPCEP有些相似之处。与TPCEP不同的是,我们在分类时采用了以增长率为标准的评分策略,充分利用了eEP的区分能力;同时,我们通过调整第二阶段的权重,使之更好地发挥对第一阶段结果进行修正的辅助作用。实验结果表明,CEEPTP在UCI机器学习库中的11个数据集上可以取得与已有的几个优秀分类算法如NB,C4.5,CBA,CMAR,CAEP,BCEP相媲美的整体分类效果。同时,我们还将CEEPTP与TPCEP、CEEP分别在多个数据集上作了分类准确率对比,表现出较好的性能。最后,为了显示对第二阶段作用的调整产生的影响,我们将调整前后的结果作了对比,结果表明,调整后的结果比调整前有了一定的改善。