论文部分内容阅读
现代社会中,数据信息以爆炸式增长,数据的样本量和维度都不断增高。数据挖掘技术的出现,有效地解决了如何从海量数据中发现有价值信息的问题。分类是数据挖掘中最重要的技术之一,被广泛应用于多个领域。如何有效地利用特征信息,提高分类算法的效果,一直是分类技术研究的热点。通过组合特征扩大特征空间的算法被证明可以有效地提高分类算法的分类效果。TSP(Top Scoring Pair)算法以特征对的形式组合特征,并选择最优特征对进行分类,具有简单高效等优点。k-TSP算法是对TSP算法的一种扩展,区别于TSP算法使用一对特征进行分类的方式,k-TSP算法使用k>0对特征进行分类。从组合特征的角度看,TSP算法使用固定的形式将任意两个特征组合为特征对,是特征线性组合的一种特殊形式。组合方式的约束限制了TSP算法中特征对的分类能力。本文使用SVM(Support Vector Machine)算法构造两特征的线性组合,用其代替TSP算法中固定的特征组合,提出了LC-TSP算法,并将LC-TSP算法扩展为使用多个线性组合特征进行分类的LC-k-TSP算法。在公共数据集上的实验证明了LC-TSP算法和LC-k-TSP算法具有比TSP算法和k-TSP算法更优的分类性能。相关性组合特征是基于一对特征的皮尔森相关系数构造出的新特征,有研究证明了其可以表示特征间相关性的变化,有利于发现类别区分能力强的特征。然而相关性组合特征的构造会引入过多的特征,可能造成维数灾难。本文根据相关性组合特征的形式和原理提出了相关性核函数,以核函数的形式隐式地构造相关性组合特征,在避免维数灾难的同时将相关性组合特征扩展到高阶多项式形式。相关性核函数本质上是一种改进的多项式核函数。本文将相关性核函数应用于SVM分类算法,提出了PCC-SVM算法。在公共数据集上对PCC-SVM算法和使用多项式核函数的SVM分类算法进行了对比。实验结果表明,PCC-SVM算法的分类效果要优于使用多项式核函数的SVM分类算法。