论文部分内容阅读
基于基因表达谱的癌症判别指针对基因表达谱数据集,设计有效的分类算法,把正常样本和癌症样本分开,并找出癌症的判别基因(特征基因);基于基因表达谱的癌症分型指针对基因表达谱数据集,设计有效的分类算法,将癌症样本分为多个亚型,并找出判别各个亚型的特征基因,以利于确定药物靶向和对患者的精准治疗。然而,基因表达谱数据集的四大显著特征:“维数灾难、高冗余、高噪声、数据不平衡性”,形成了基于基因表达谱的癌症判别与分型的困难。本研究针对基因表达谱数据集的上述特征,以及结直肠癌亚型的数量未知的问题,研究了前沿水平的相关算法,以此为基础,提出了更合理的结直肠癌的判别与分型的方法,提高了结直肠癌判别与分型的准确性并找出了一系列具有高判别能力的特征基因集。本文分为四部分,第一章为绪论;第二章,研究了基于基因表达谱的结直肠癌的判别与分型的相关算法,主要包括:(1)基于RUSBoost的不平衡数据集的分类算法,将该二分类算法扩展为多分类算法,命名为 RUSBoost.M2,(2)基于差分进化(Differential Evolution,DE)和轮盘搜索策略的特征基因选择算法DEFSw,并针对基因表达谱数据的样本不平衡性,将该算法所封装的分类评估测度和分类算法分别改进为权重精度和RUSBoost.M2算法,提出了 DEFSw.wAcc及DEFSw.RUSBoost.M2.wAcc算法,提升了所选出的特征基因的分类判别能力,(3)将用于视频监控处理的BRPCA(Bayesian Robust Prince Component Analysis)算法作适当改进,引入到基因表达谱数据的处理,用于降维与降噪,(4)基于平面极大过滤图(Planar Maximally Filtered Graph)的层次信息聚类算法(简称DBHT),重点研究了其聚类的原理,利用该算法能自动确定类数并无监督地完成聚类的特点来分型;第三章,针对结直肠癌的判别,利用第二章所提出的DEFSw.RUSBoost.M2.wAcc特征选择算法,从TCGA COAD(结肠癌)数据集中选择并经在GEO GSE39582、GSE41657和TCGA READ(直肠癌)数据集上验证,筛选出13组只包含1个基因和88组包含2个基因、既可高精度地判别结肠癌也可高精度地判别直肠癌的特征基因集合,以及14组只包含1个基因、只可高精度地判别结肠癌的特征基因集合,一些基因之前并无癌症或结直肠癌的相关报道。同时,对于5个已报道的有前景的结直肠癌生物标志物,均为其找出了多个辅助基因,能显著地提高这些生物标志物对结肠癌的判别能力。第四章,利用TCGA COAD数据集,先利用第二章所改进的BRPCA算法进行基因表达谱数据的降维和降噪,再利用DBHT算法对BRPCA算法分离出的稀疏成分S进行无监督聚类,以正常样本被正确聚类为参照物,将结肠癌症分为7个亚型,然后利用DEFSw.wAcc算法选出了分型的44个特征基因,其中包含基因MSH6,其是一个已知的和结直肠癌遗传相关的基因,直接存在于KEGG的结直肠癌的通路中。