论文部分内容阅读
随着大数据与人工智能时代的到来,数据与智能在我们的生活与工作中扮演着举足轻重角色。数据挖掘作为大数据与人工智能应用最为广泛的一条技术分支,其中的数据挖掘算法的性能将直接影响数据挖掘结果。而众多数据挖掘算法中,分类算法能够在金融、医疗、营销和交通等各行各业中解决出现最多的分类问题。作为数据挖掘中最为核心内容,去提升和改进其分类算法的性能,有着重要的研究意义。对于数据挖掘技术来讲,一方面大量数据中存在很多冗余、脏乱差的数据,对于这些属性的处理,现有的一些特征选取方法,并不能很好地贴合分类器的特性来进行属性筛选。另一方面,对于传统分类器,也存在着分类准确率有待提升、训练数据不平衡、过拟合等问题。在算法运行效率方面,本文以Ripper算法为基础,提出了一种贴合分类器特性的特征选取算法。统计Ripper分类器得到的输出规则结果,对于每个特征属性出现的次数进行权重累加,并设置相应的过滤阈值。当某特征属性权重低于阈值时,过滤删除此属性,循环迭代此算法已达到筛选属性的目的。在提高算法分类准确率方面,本文提出了一种基于Ripper算法的增强分类算法。结合Adaboost算法框架,使用Ripper作为弱分类器。将训练集的样本按照迭代次数平均划分,对于第一份数据进行直接训练得到其相关的弱分类器。之后每次使用其中一份数据加上上一个弱分类器分错样本的扩充数据,进行训练。扩充数据,即对错误样本重复抽样,达到与新样本之间的数据比例各占50%。直到到达某个之前设置的分类错误率,或到达先前指定的最大迭代次数,则训练停止。最后,将训练后的多个弱分类器权重求和相加,构成最后的增强分类器Ripper-ADB。采用本文提出的特征选取算法,很大程度上减少了算法运行的时间。在32个属性时测试集可以达到最高的分类准确率86.29%,在仅有6个属性的时候,在仍然可以达到84.78%的分类准确率。结合特征选择方法,提出的Ripper-ADB算法,在不同属性的情况下,与原始算法Ripper以及传统决策树、SVM相比,在测试集上,32个属性的时候拥有最高88.5814%的分类准确率。