论文部分内容阅读
特征选择是机器学习领域重要的研究内容之一。随着大数据时代的来临,数据呈现量大、维数超高的特点。另一方面,数据中也存在大量冗余及不相关的数据。这些现状导致许多机器学习方法计算效率变低、计算结果变差。采用特征选择算法预先去除冗余和不相关的特征,可以达到减小数据集,降低数据维数的目的。从而实现降低机器学习算法的时间复杂度,提高运行效率,并提高学习模型的预测精度。 另一方面,现代生物学与医学进入了系统研究的时代,生物学家从基因组与蛋白质组角度来研究和刻画细胞的活动。而这些数据呈现小样本、超高维的特点。在蛋白质组数据上的特征选择有显著的现实意义,生物学家测量了正常人群与某疾病人群的各种蛋白质的含量,他们需要知道哪些蛋白质与疾病密切相关,从而可以选择合适的生物标记或者药物的靶向蛋白。从数以万记的蛋白质种类中选择生物标记抽象地来说就是个特征选择问题。 本文首先对过滤式特征选择方法做了全面的评估,我们需要了解哪些特征选择方法性能更好一些。我们选择了十种代表性的特征选择算法,并把它们应用在了人体尿液蛋白质组数据集上,这些特征选择方法分别计算每个特征的分值并进行排名,最终每种特征选择方法分别选择了前5,10,20,50,100个特征。所选择的特征输入到经典的分类方法中,来评估所选择特征的优劣。实验表明,信息增益等方法性能相对出色一些。 此外,本文提出了两种完全不同的特征选择方法。第一种方法主要考虑了类标签的有序性,通过计算类与类之间的距离,来衡量特征与类标签的契合度;第二种方法基于支持向量机的思想,通过求解支持向量机的最优的分类超平面,并计算该超平面与各个特征之间的夹角,从而衡量每个特征在分类中的参与度。实验表明,这两种特征选择算法在人体尿液蛋白质组数据上有良好的效果。