论文部分内容阅读
随着癌症发病率的提高以及癌症的高死亡率,越来越多的研究者开始将关注点放在癌症分类问题上。传统的癌症分类问题主要是基于形态学之上,主要依赖于经验,诊断准确性不高。基因芯片技术的出现使得大量的基因表达数据被测定,这使得从基因的层面对癌症进行早期的诊断成为了可能。然而基因表达数据具有样本少、维度高、数据分布不平衡等特点,如何对这些数据进行有效的预处理、通过特征选择达到降维的目的、建立分类精度高的癌症分类模型引起了广大学者的关注。在癌症分类问题中,本文首次提出互信息去冗与多种分类模型结合的分类方法。首先利用欠采样的方法对数据进行预处理,从而防止样本不平衡所带来的数据碎片问题和不恰当的归纳偏置问题;然后通过信息增益的方法进行特征基因的选择,从而降低数据维度,去除无关的特征所带来的干扰和对性能的影响;进而使用互信息的方法进行冗余基因的去除;最后使用最终的特征基因集合用于癌症分类模型的构建。本文将互信息去冗与多种分类模型结合的分类方法应用在基因表达谱类型数据的分类问题中,通过实验和对比研究探索数据预处理、特征基因的选择、冗余基因的去除、分类模型的构建。对KentRidge数据集和TCGA乳腺癌数据集进行预测研究,实验结果为,本文所提出的分类方法优于使用信息增益进行特征选择的方法,在分类准确度上、使用SVM作为分类器时采用互信息去冗的方式进行特征基因的选择较信息增益的特征选择方式在五个数据集中均选择了较信息增益较少的基因作为特征基因,其中在BreastCancer数据集上,去除的冗余基因较多,剔除了 17个基因;在分类精度上,采用互信息去冗的特征基因选择较采用信息增益的特征选择方法有了一定的提升,其中在Colon Cancer数据集上,分类准确度提高了 6.7%,Breast Cancer数据集上,分类性能降低了 0.9%,其余数据集上分类准确度具有一定的提升;在分类模型的构建方面,本文研究发现,不同的分类器在不同的数据集上使用本文的特征选择方法后表现的分类性能有优劣之分,其中KNN在2个数据集中表现出更优的分类性能,而SVM则在3个数据集中表现出更优的分类性能。实验结果表明,不同特征选择算法与不同分类模型相结合具有不同的性能;在特征选择方面,采用互信息去冗余的特征选择方法,解决了以往的特征选择方法中,特征集合中存在冗余的问题。