论文部分内容阅读
基因表达谱是大量基因表达水平信息的集合。研究表明,癌症的发生在分子水平上通常表现为基因表达水平的改变。因此,利用基因表达谱来判别出与癌症密切相关的少量基因,对癌症的诊断和治疗具有重要意义。而基因表达谱数据通常具有维度高样本量低的特点,这给传统机器学习方法带来了挑战。在判别少量致病基因之前,需要从成千上万基因中去除大量无关基因,其中特征选择是一种有效手段。本文以多个公共的基因表达谱数据集为基础,利用特征选择方法筛选出在癌症中具有差异性表达的基因,并由此指导后续的分类任务,将最终的分类性能作为我们基因选择方法的评价标准。围绕基因表达谱数据分类的基因选择问题,本文主要做了如下工作:1)基因表达谱数据的数值表征了基因的表达水平,相邻数据之间不具有连续性,同时在数据采集的过程中经常包含噪声,基于此本文引入了离散化的数据预处理方式。通过与其他数据预处理方式对比,验证了基因表达谱数据的离散化处理能够带来更优的分类准确率。2)对于具有高维小样本特性的数据,过滤式的特征选择算法能够快速且有效地得到在不同类别上具有差异表达的特征,但不同的过滤式方法得到的关键特征往往存在较大差异,分类稳定性不高。因此本文利用集成学习的思想,提出了集成过滤式的特征选择方法GSEF,实验结果表明本文方法比其他单一过滤式特征选择算法具有更优越的分类性能,同时分类稳定性也得到了提升。3)基于集成过滤式的特征选择方法GSEF能快速去除无关特征,但是并不能去除冗余特征。为进一步去除冗余特征本文将GSEF与谱聚类和SVM-RFE相结合提出了基于聚类和SVM-RFE的多重特征选择算法SC-SVM-RFE。将本方法作用于四个公共的癌症基因表达谱数据集,在三个分类器上(SVM、KNN、NB)验证所选基因的分类性能,实验结果表明本文方法所选的特征子集具有比SVM-RFE和GSEF方法选出的特征更优越的分类性能,特别是在所选特征数量较少的情况下,本文方法更有效。