论文部分内容阅读
基因芯片可以快速检测成千上万条基因,从而对生物细胞基因水平做出一个全面的认识。近年来,越来越多学者将基因芯片技术应用到肿瘤与癌症的研究中。针对维数高、样本数量少的微阵列数据,如何从海量数据中提取出数量很少的与疾病和肿瘤分类相关的特征基因,对于推进肿瘤的基础研究和发现肿瘤致病机理,科学的认识肿瘤疾病本质具有重要意义。本文致力于通过选取数量较少的特征基因获得正确率较高的分类效果,主要研究工作如下: 一个共轭烃分子的能量(π-电子在分子中运动产生的能量)与分子的几何结构图的特征值有很重要的关系。由此而构造的图能量(Graph Energy)是一个描述分子性质的重要变量。文章提出了基于图能量的基因选取方法,将图能量引入到基因芯片分析中,将图能量与信噪比函数(SNR)结合起来,构造一个新的挑选基因的函数SNRGE。提取特征基因时,本文首先使用k-均值聚类对所有基因进行聚类,通过将特征相似的基因聚为一类从而删除冗余基因。然后采用SNRGE公式对所有的基因进行排序,分别在每一类中选取一个得分最高的特征基因。通过该方法在维数高、样本少的基因表达图谱中选取与癌症具有重要相关性的基因,随后使用支持向量机对提取的特征基因进行分类验证并获得正确率。文章通过在结肠癌数据库上的实验验证图能量在特征基因提取中可以获得很好的效果。 为了验证文章提出方法的性能,本文给出了一个全面科学的验证。验证包括:与传统的信噪比函数方法进行交叉对比;使用其他文献中提出的信噪比函数替代本文提出的基因选取方法中的SNRGE公式;使用不同的分类器对不同基因提取方法进行对比;针对选取的特征基因进行生物相关性分析;在四个常用的基因芯片数据库上对比不同的基因提取方法的分类效果。将以上五个实验获得的结果进行对比研究,结果证明本文提出的特征基因提取方法在癌症分类问题中是有效的。