论文部分内容阅读
数据挖掘又称数据库中知识发现,是从大量数据中用非平凡的方法发现有用的知识。分类是数据挖掘中的一项非常重要的任务,在商业、金融、电讯、DNA分析、科学研究等诸多领域具有广泛的应用。统计学、机器学习、神经网络等领域的研究者提出了很多分类方法,大部分算法是内存驻留算法,适用于小型数据集。随着数据集的数据量和维数的增加,建立高效的、适用于大型数据集的分类法已成为数据挖掘的一个挑战性任务。基于显露模式(Emerging Pattern,EP)的分类方法是针对大型数据集的分类提出的,EP是G.Dong和J.Li提出的一种新的知识模式,这些模式能够捕获目标类和非目标类上多组属性之间的不同,具有很好的分类性能。相关研究表明,基于EP的分类算法的平均分类准确率优于决策树等传统算法,显示了EP在分类方面的优越性。另一方面,提升(Boosting)与装袋(Bagging)以及其他基于委员会的方法能够显著改善某些算法的分类准确率。基于委员会的方法试图通过合并多个弱分类器建立一个有效的委员会来构造一个更加有效的分类器。现有的组合分类方法研究主要使用决策树、神经网络以及贝叶斯方法作为基分类器,其他类型的分类算法还有待进一步研究。本文首次提出了一种Boosting基于EP的分类器提高分类准确率的算法BoostEP(Improving ep-based classifiers via Boosting)。算法使用基于eEP的分类方法建立基分类器,eEP是一种最具表达能力的、特殊的EP,称为基本显露模式。它不仅具有显露模式的优点,可以用来构造准确的分类器,而且数量比显露模式少很多,可以快速方便地挖掘和使用。BoostEP使用Boosting技术建立多个基于eEP的基分类器形成组合分类器,并对每个基分类器预测加权投票得到未知样本的类标号。为了测试算法的分类性能,使用了UCI机器学习数据库的21个基准数据集为实验数据集,并将实验结果与NB、C4.5、CBA、CAEP等优秀分类法比较,结果表明,BoostEP具有更好的分类准确率。和BaggingEP分类法相比,实验还表明Boosting能够提高基于EP的分类方法的性能。