论文部分内容阅读
分类是数据挖掘的任务之一,其先在已知类别的样本上学习然后生成一个预测模型以判定新数据的类别。集成学习为这一问题提供了一种有效可行的解决方式,它的基本思想是先构建多个不同的预测模型(基分类器),然后将其输出做某种组合作为最终的输出。一般,集成学习可以获得比单一分类器更加稳定的输出及更优的分类性能,而Boosting是该领域的代表性方法,它可将粗造的、不太正确的、简单的初级预测模型,按照一定规则构造出一个精确度很高的强分类器。最初它很难应用于实际问题中,AdaBoost(Adaptive Boosting)算法的出现有效地解决了这一问题,成为Boosting家族的代表算法,受到了极大的关注。多样性是影响集成学习泛化能力的关键因素,因此本文从分析AdaBoost基分类器之间的多样性变化规律入手,基于多样性对AdaBoost算法进行研究分析,先后给出了两种优化集成性能的方法,最后融合粒子群算法(Particle Swarm Optimization,PSO)和AdaBoost算法,提出一种基于特征选择的集成方法,用以解决不平衡多分类问题。具体工作是:首先,针对AdaBoost算法下弱分类器间的多样性如何度量问题以及AdaBoost的过适应问题,在分析并研究了4种多样性度量与AdaBoost算法的分类精度关系的基础上,提出一种基于双误度量(Double Fault Measure,DF)改进的AdaBoost方法。首先,研究分析4种不同的多样性度量方式与测试误差的相关性。然后,基于上一步得出的实验结果,尝试利用DF改进AdaBoost的弱分类器的选择策略。最后,实验结果表明改进后的AdaBoost算法可以控制过适应,进一步提高分类性能。另外,基分类器的准确率和多样性是影响集成学习泛化能力的两个重要方面,为保证准确率同时增加多样性进而提高集成泛化能力,尝试将聚类和AdaBoost算法结合。首先,对训练样本进行聚类,将训练样本分成多个组。然后,分别在每组上进行AdaBoost训练得到强分类器,按照加权投票策略进行强分类器的集成。其中,每个分类器的权重是自适应的,是基于测试样本与每组的相似性以及强分类器对此测试样本的分类置信度计算而得。最后,在10组来自UCI机器学习库(University of California Irvine Machine Learning Repository,UCI)的数据集上与Bagging,随机森林和AdaBoost等代表性集成方法比较,结果表明此方法可取得更高的分类精度。最后,针对不平衡分类问题,根据AdaBoost可学习有利于高权值样本的模型的特点,结合特征选择探索解决此类问题的有效方法。首先,对数据进行预处理,通过PSO算法优化特征选择,来去除不相关和冗余的特征,降低小类被当作噪音的风险。同时为了缩短PSO的进化时间,会先根据特征重要性生成一个近似最优粒子加入初始化种群,使得粒子群一开始沿着较为合理的方向搜索。然后,利用AdaBoost可学习有利于高权值样本的模型的特点,增加对小类的关注,在保证总正确率的前提下提高小类识别率。最后,与其他算法在7组不平衡数据集上进行对比实验,验证了该方法的有效性。