论文部分内容阅读
随着信息获取的丰富,我们面临越来越多的多类分类问题,如遥感图像分析、文本分类,入侵检测、人脸图像识别、网页分类、安全态势预测、病毒程序检测等等。在过去几十年里,由于分布式处理和学习泛化能力在理论上不断的提高,对二类别分类问题的处理,机器学习方法已经逐渐趋于成熟。但是对于处理多类分类的问题,随着分类的类别数越来越多,分类器的设计难度就会越来越大,因此如何处理复杂的多类别分类问题,成为研究和应用的热点。为了解决多类别分类问题,通常采用将类别问题分解为多个二类别问题。其常用的方式有一对多(One-against-all,OAA)和一对一(One-against-one,OAO)两种方案。本文采用BP神经网络分类器和支持向量机分类器作为基分类器,采用One-against-all技术将多类问题分解成多个二类别问题,再结合集成学习对多类问题进行分类。本文主要工作:传统One-against-all(OAA)分解方式的性能更多的依赖于个体分类器的精度,而不是它的差异性。本文提出了一种基于集成学习的适于多类问题的神经网络集成模型,其基本模块由一个OAA方式的二类别分类器和一个互补多类分类器组成,组合方式可以有并行组合、串行组合和分级组合三种。该模型在UCI数据库和手写数字识别的多类问题上比其他经典集成算法有着更高的精度,并且有较少存储空间和计算时间的优势。针对类别不平衡多类问题,提出一种基于单类支持向量机的集成学习分类算法。此方法先将多类别分类问题用One-against-all分解成多个二类别问题,再用One-Class SVM作为处理二类分类问题的基分类器。最终将所有One-Class SVM的输出由决策函数决策测试样本的类别,此结构称为MOCSVMC。此算法也可结合AdaBoost集成算法,把所有MOCSVMC结构进行集成。实验在UCI数据库上进行了测试,实验结果表明,该方法在处理多类问题上相比其他经典集成算法,有计算速度快、分类精度高的优势。本文从多类问题出发,用集成学习算法研究了两种集成分类模型,并将其应用在手写数字识别和UCI数据库上。本文提出的两种算法,在运算速度和分类精度上,都优于传统的经典集成学习算法AdaBoost和Bagging,实验表明这两种分类模型取得了良好的分类效果。