论文部分内容阅读
肿瘤与正常细胞的差异基因表达分析、肿瘤的亚型识别都对癌症的早期诊断和临床治疗具有非常重要的意义。然而,临床上获得的肿瘤组织往往包含一定数量的其它细胞,如正常细胞、免疫细胞、基质细胞、血管细胞等。其中,正常细胞的混入会对差异基因表达分析和肿瘤亚型分类产生不利影响。因此,建立合适的统计模型修正肿瘤纯度信息对差异基因表达分析、肿瘤聚类的影响是亟待解决的工作。本论文针对以上两个问题展开系统研究。首先,我们研究了肿瘤纯度信息对差异表达基因分析的影响。通过模拟分析发现,肿瘤纯度与基因表达量差异之间的关系是乘性而非原来认为的线性关系。忽略肿瘤纯度,或者将肿瘤纯度作为协变量加入回归模型都会使得差异表达基因分析的结果出现偏差。为了解决这个问题,我们提出了一种广义的最小二乘模型和Wald方法来检验每个基因在肿瘤和正常细胞之间的差异性。通过对TCGA肿瘤数据的分析表明,无论是在差异表达基因个数、肿瘤间统计量一致性等指标上还是在对应癌症类型功能关联性上,该方法都优于传统的t-test和limma。其次,我们研究了肿瘤纯度信息对肿瘤样本进行无监督聚类的影响。通过对TCGA乳腺癌450K甲基化芯片数据聚类结果分析发现,利用传统的k-means和NMF进行聚类,肿瘤纯度将会使得聚类结果出现偏差,具有相类似纯度的肿瘤样本极易聚在同一类,并且肿瘤纯度较低的样本极容易聚错。基于此,我们针对DNA甲基化芯片数据,提出了一个基于模型的聚类算法。我们将肿瘤样本在每一个位点的甲基化水平假设成了一个高斯混合分布,利用EM算法进行参数估计和肿瘤样本聚类。数据模拟分析表明,相比较于k-means,我们的算法具有更高的精度。通过对TCGA的23种癌症的分析发现,我们的方法得到了相对于k-means和NMF的偏差较小的聚类结果。