论文部分内容阅读
随着全球信息技术的发展,数据挖掘理论得到广泛研究,分类是其中应用最广的一种技术。随着可以利用的数据同益增长,大数据量的学习处理给研究者提出了新的难题。本文对增量式分类学习算法进行了研究,希望能够在保持分类准确率和稳定性的前提下,让分类算法能够在保持原有学习知识的基础上,对新增训练样本集进行学习,获取新样本中包含的知识。
本文首先介绍了分类的基本概念和常用技术,并着重介绍了决策树分类算法。然后论文介绍了有选择的集成学习的主要思想,分析集成学习与增量学习的相同特点,指出可以采用有选择的集成学习来为分类算法产生增量学习能力。在此基础上提出了一种增量式分类学习算法SEC4..5的设计方法:
☆基于bootstrap抽样与C4.5分类算法,采用有选择的集成学习的思想,在初始训练集上构造一系列的分类决策树,形成一个决策树集合;
☆新样本集到来后,通过对总的样本集重新抽样(适当增加被集合误分类的新样本的权重)获得新的训练集,在新训练集上学习得到新的决策树;
☆使用一个决策树竞争算法测试决定新决策树是否值得保留并加入集合;
☆分类时集合中的每棵树都进行分类预测,最终采用投票方式决定样本所属类别。
本文提出了决策树竞争机制,用于选择对集合整体分类预测能力贡献较大的决策树个体。
本文通过实验验证了SEC4.5算法的正确性,证实了其能够稳定地以较小的时间代价进行增量学习。最后,本文还将SEC4.5算法应用于银行卡数据分析的实际应用中,解决了客户分类的相关问题。