论文部分内容阅读
2017年初,国家癌症中心发布中国最新癌症数据,报告显示我国癌症新发人数呈上升趋势,形势依然严峻。DNA微阵列技术可获取大量的基因表达谱数据,为肿瘤特征基因选择和肿瘤亚型分类提供可靠的数据来源。但由于实验误差等影响,通过该技术获取的基因表达谱数据存在噪声和冗余基因,这些基因会影响肿瘤亚型分类的准确率。肿瘤特征基因选择不仅可高效地选出与肿瘤分类高度相关的基因,同时也降低了肿瘤亚型分类的成本。基因表达谱数据具有维数高、样本少、噪声多等特点,为数据的分析与处理带来了巨大的挑战。本文基于DNA微阵列技术获取的基因表达谱数据,采用机器学习等相关知识,探索出泛化能力强、分类精度高的肿瘤特征基因选择方法。主要研究内容如下:(1)基于PCA和信息增益的肿瘤特征基因选择方法。鉴于传统的主成分分析算法未将样本数据的类别信息考虑在内,基因数据信息未能得到有效利用,选出的特征基因子集中仍包含部分冗余信息,导致数据的分类精度偏低等问题,提出一种基于PCA和信息增益的肿瘤特征基因选择方法。首先利用主成分分析算法对原始基因数据集进行降维处理,选出贡献率较大的基因;然后采用信息增益算法剔除预选特征基因子集中的冗余信息,将预选特征基因的信息增益值作为衡量标准,选出信息增益值较大的基因构建肿瘤特征基因子集。实验结果表明,该方法可快速有效地选出肿瘤特征基因,且达到了预期的分类效果。(2)基于信息增益和邻域粗糙集的肿瘤特征基因选择方法。针对基因表达谱数据中包含有较多的冗余,在数据处理时还会受到噪声的影响,导致现有的一些肿瘤特征基因选择方法存在分类能力弱和鲁棒性差等问题,提出一种基于信息增益和邻域粗糙集的肿瘤特征基因选择方法。首先利用信息增益算法计算各个基因的信息增益值,经过降序排列后,选取信息增益值最大基因,利用斯皮尔曼相关系数选取与最大信息增益值基因相关性较大的基因作为预选特征基因子集;然后采用邻域粗糙集算法对预选特征基因子集进行特征基因选取,采用顺序向前搜索算法选择出重要度较大的基因。实验证明该方法比其他相关方法的分类准确率高,并且选择出的特征基因子集规模较小。