论文部分内容阅读
背景与目的:食管癌是一种致死性的恶性肿瘤,其中食管鳞癌占了食管癌的绝大部分肿瘤病理组织学类型,且发现的时候大部分病人已处于晚期,缺乏有效的治疗,导致预后极差。中国是世界上食管癌发病率最高的国家,而且食管鳞癌占了全部病例的90%。各种信号通路控制着肿瘤细胞的各种活动特性,并且关键基因总是参与到这些通路中。随着基因芯片技术的应用,有关食管鳞癌的基因表达谱不断增多;同时生物学功能数据库也在不断完善,我们对食管鳞癌在分子层面改变的认识进一步加深,但临床实践所用的诊断标志物并没有明显的发展。本文拟在食管鳞癌分子层面改变的基础上寻找潜在的诊断标志物,或许可推动标志物在临床上的应用。此外,同一种肿瘤通常存在不同的亚型,不同的亚型通常有不同的治疗方案和预后,探索食管鳞癌的不同亚型同样具有重要意义。 材料与方法:本文从NCBI中的GEO数据库获取食管鳞癌的基因表达谱数据,限定平台为Affymetrix U133系列的平台。将满足条件的数据集分成两部分,用于训练分类模型和探索亚型的数据集称为训练集,用于验证结果的称为验证集。第一部分,寻找潜在诊断标志物时,将所有数据集独立标准化后,使用DWD法合并训练集数据,之后求取正常与癌症组织的差异表达的探针。使用DAVID对差异表达的探针进行注释并进行KEGG通路富集分析,对富集到KEGG通路的基因使用Boruta特征选择算法选取特征基因并使用Z值对其重要性进行排序,使用IFS方法构建logistic回归模型,使用十倍交叉验证对样本的分类能力进行预测,当预测能力第一次达到最大时,确定纳入模型的基因个数。使用已建立的模型对标准化后的验证数据集进行预测,验证模型的外部性能,最终确定潜在的诊断基因。第二部分,探索食管鳞癌亚型时,在训练数据集中提取癌症样本,然后对其进行一致性聚类分析,根据聚类结果确定可信的聚类数目。然后使用相同的基因对验证数据集进行一致性聚类分析,验证聚类数目。 结果:共纳入5个符合条件的数据集,共96个食管鳞癌组织样本和106个正常组织样本。第一部分,共得到2861个探针呈差异表达,1079个探针对应803个基因被富集到KEGG通路;Bortua算法共产生73个具有对样本进行分类能力的特征基因,IFS方法构建的logistic回归模型共有两个基因,属于上调的基因,mcm2和cks1b,对样本的预测精度达0.96。两个基因构建的分类模型对验证数据集的预测精度分别为0.89和0.4,最终确定两个潜在的诊断基因。第二部分,根据一致性聚类结果,可以看到样本被分成了两类,求取两类的差异表达基因368个再次进行聚类,可以清晰的看到样本被分成了两类,类与类之间没有重合。使用368个基因在验证集中进行一致性聚类,同样可以看到样本可以被分成两类,但类与类之间有些许重合。 结论:(1)本文共发现两个潜在的食管鳞癌诊断基因,但诊断范围局限于组织。(2)不同的特征基因选择方法得到的潜在诊断基因不同。(3)临床上进一步验证组织标志物及其对应的血液标志物面临挑战。(4)食管鳞癌的内在亚型可能有两类。