论文部分内容阅读
在大数据时代,数据的有效处理与应用变得尤为重要,而机器学习则是进行数据处理的重要工具。其中,分类是机器学习中十分重要的研究课题。分类指的是对训练样本进行学习而得到分类器,然后用分类器将一个未知标签的样本标记为某个类别。而单分类/一分类(One Class Classification,OCC)是一种特殊的分类问题,即在分类器的学习训练阶段,只通过对正样本这一个类别的数据进行学习,就可以得到分类器(这不同于二分类问题,必须通过对正负两类数据的学习训练,才能得到分类器)。而应用最为广泛的单分类算法是单类/一类支持向量机(One-Class Support Vector Machine,OC-SVM)。由于继承了支持向量机的优良特性,遵从结构风险化原则,优秀的泛化性能,在模式识别,文本分类,异类检测等领域应用广泛。本文对单分类方法(OCC)尤其是单类支持向量机(OC-SVM)进行了系统的研究,所取得的主要研究成果为: 1.对常见的单分类算法(OCC)进行了系统阐述和比较,并分析了常见单分类算法间的不同特点与应用场合。对单类支持向量机算法(OC-SVM)做了深入研究,分析了两种单类支持向量机算法,即支持向量数据描述(Support Vector Data Description,SVDD)和?-支持向量分类器(Support Vector Classifier,ν-SVC),并在几何和数学意义上统一描述了这两种单类支持向量机的等同性。 2.对单类支持向量机在大规模数据上的训练时间复杂度问题进行了研究。利用其支持向量特点,提出了一种基于边界检测的快速训练方法,有效解决了其训练时间复杂度问题。为更好地提取边界样本,本文提出了一种基于角度-密度度量的边界检测方法。在多个标准数据集上进行了实验验证,实验结果表明,这种方法可以有效解决单类支持向量机的训练复杂度问题。单类支持向量机的决策函数由位于边界区域的少量的支持向量决定。因此位于边界区域的样本被认为是对分类结果最有影响的样本子集。所以本人将会用边界样本来重构一个更小规模的样本子集。同时为了保留训练样本的全局分布特性,本文将聚类中心点与边界样本合并得到重构样本集。这样,在重构样本集上训练的单类支持向量机拥有更小的训练复杂度,且分类精度可以得到保持。 3.对单类支持向量机在噪声下的过拟合问题进行了研究。提出了一种新的训练数据加权方法,用来克服噪声影响。实验结果表明,在不影响训练复杂度的情况下,这种加权方法可以有效解决噪声影响及过拟合问题。