论文部分内容阅读
近年来,物联网、互联网金融、云计算、移动通信等应用产生了大量的新数据,这些数据具有快速到达和不断变化的特点。因此,有效的利用这些数据,并对其进行高效的分析,从而获得有用的信息和知识,这对指导后续的决策是至关重要的。增量学习能够很好的满足这个需求,所谓增量学习是在学习新知识的同时尽量保留已学的知识,以达到不断积累知识的目的。增量学习分为单分类器增量学习和集成式增量学习,其中集成式增量学习是将集成学习的思想引入到增量学习中,进而提高系统的泛化能力。但这样会出现一些问题:首先,随着系统的不断运行,集成分类器规模增大,导致系统预测性能的下降和开销的增加,因此,从众多基分类器中选出有用的分类器是很有必要的;其次,许多集成式增量学习算法采用正确率来衡量基分类器的性能,但在实际应用中,正确率暴露出许多的限制和不足,因此,寻找更好的方法来替代正确率具有十分重要的意义。针对上述两方面的问题,本文提出基于AUC(Area Under ROC Curve)方法的集成式增量学习算法Learn++AUC,用于解决正确率不能完全准确衡量基分类器性能的问题;提出基于选择性集成的Learn++AUC-OO算法,解决集成式增量学习会导致集成分类器规模增大、系统开销增加的问题。本文主要工作和研究如下:第一,介绍了增量学习相关技术。首先阐述了增量学习、集成学习、选择性集成以及ROC技术和AUC方法的基本概念。然后列举了国内外发展的现状,特别是对增量学习中Learn++算法的研究现状作了详细的论述。最后,回顾了集成式增量学习和选择性集成的经典算法。第二,针对采用正确率衡量分类器预测性能的限制和不足,在Learn++算法的基础上提出基于AUC方法的Learn++AUC算法。Learn++AUC采用基分类器的AUC值作为其性能指标,使集成分类器的分类正确率得到提高。通过比较Learn++和Learn++AUC在UCI数据集上的分类正确率,验证了Learn++AUC的有效性。第三,针对集成式增量学习中集成分类器数量增加,导致预测性能下降、系统资源浪费的问题,提出基于选择性集成的增量学习Learn++AUC-OO算法。该算法在Learn++AUC的基础上,结合选择性集成OO(Oriented Order)算法对集成分类器进行选择性集成,从而减少了基分类器数量,提高了基分类器之间的差异度,使分类正确率和预测效率得到提高。通过比较Learn++AUC和Learn++AUC-OO在UCI数据集上的分类正确率,验证了Learn++AUC-OO的有效性。