论文部分内容阅读
一个数据集可能包含几十甚至几百上千个特征,对于特定的学习任务来说,并不是每个特征都是必要的:有些特征与学习任务是相关的(relevant);有些特征与学习任务无关(irrelevant);有些特征是冗余的(redundant);特征与学习任务之间也不一定线性相关。因此,机器学习的一个中心问题是针对特定的学习任务定义出有代表性的特征子集。特征子集的确定(维归约-DimensionalityReduction)有两种途径:特征选择(FeatureSelction)方法仅仅保留有用的特征,而丢弃其它的特征;特征提取(FeatureExtraction)方法根据原始的特征构造出新的特征[KT03]。本文主要利用线性支持向量机(SVM-SupportVectorMachine)和统计学习理论中的核方法来对分类任务(模式识别)进行维归约,本文的主要贡献如下:
对于特征选择,本文首先提出了基于改进SVM(MSVM-ModifiedSVM)的特征选择算法(MFS-MSVMbasedFeatureSelction)。MFS算法的思想是首先根据MSVM的结果(权重向量)来确定单个特征的分类能力,然后按照一定的方式(前向选择或后向消除)确定特征子集。MFS算法的主要缺点是不能很好地处理冗余特征,因此本文提出基于相关分析(Correlation)和MSVM的特征选择算法(CMFS-CorrelationandMSVMbasedFeatureSelction)。CMFS在MFS的基础上增加了对冗余特征的处理——在确定特征子集的时候,一个特征是否加入特征子集需要综合考虑该特征的分类能力以及它与特征子集中其它特征的相关程度。实验表明,与其它的特征选择算法相比,本文提出的特征选择算法具有更好的性能:能够在比较短的时间内提取出分类能力比较好的特征。