论文部分内容阅读
目的:利用癌症基因组图谱(The Cancer Genome Atlas,TCGA)探究在胰腺癌(Pancreatic adenocarcinoma,PDAC)中发生变化的趋化因子家族成员基因组、转录组和蛋白质组学特征信息,并通过无监督层次聚类(Hierarchical Clustering,HC)确定影响PDAC患者总生存(Overall Survival,OS)的趋化因子表达谱,进而构建趋化因子相关基因预后模型,同时探究PDAC患者局部免疫特征,以进一步阐明PDAC患者中趋化因子家族表达谱与局部免疫特征的联系。方法:第一部分TCGA胰腺癌数据集中影响患者总生存的趋化因子表达谱应用GEPIA2分析趋化因子家族44个成员在胰腺癌和健康对照组织中的m RNA表达差异。通过Surv Express对TCGA数据库胰腺癌数据集(Pancreatic adenocarcinoma,PAAD)中趋化因子家族全成员对生存的影响进行分析,同时,使用c Bio Portal工具提取其基因组改变的情况。通过在RStudio中分析来自PAAD的转录数据和临床数据,计算趋化因子基因组合的皮尔逊相关系数(r值)和p值。使用Facto Miner包对PAAD队列进行主成分分析(Principal Component Analysis,PCA)和无监督分层聚类。使用Survival和Surv Miner包对患者集群进行生存分析。最后,为了研究不同趋化因子在人类胰腺癌组织样本中的蛋白质水平表达,我们从人类蛋白质图谱(the Human Protein Atlas,HPA)中检索了趋化因子基因在PDAC样本的组织阵列上的免疫组化数据。第二部分趋化因子相关基因预后模型的建立和免疫特征分析使用DESeq2包,对TCGA胰腺癌患者中根据趋化因子不同表达分组的特征群进行差异表达基因(Differential expression genes,DEGs)分析,并对DEGs进行基因本体论(Gene Ontology,GO)和基因集富集分析(Gene Set Enrichment Analysis,GSEA),以确定每个患者簇的肿瘤特征。通过STRING的系统共表达分析和Msig DB文献挖掘,描绘了与趋化因子相关的基因。通过LASSO回归从趋化因子及其相关基因中筛选特征基因,并对特征基因进行单因素和多因素Cox回归分析,在TCGA-PAAD队列中建立预后风险模型。通过estimate包对PDAC患者进行免疫相关特征和肿瘤纯度的评估。引入TIMER2.0数据库分析肿瘤微环境中免疫细胞和基质细胞的浸润情况,以检查其与趋化因子家族表达的潜在联系。最后,我们通过实时荧光定量PCR(Quantitative Real-time PCR,qRT-PCR)验证了趋化因子相关基因在胰腺癌细胞系中的表达。结果:第一部分TCGA胰腺癌数据集中影响患者总生存的趋化因子表达谱1.趋化因子家族各成员在PDAC的表达分析中,我们发现CCL2、CCL3、CCL4、CCL5、CCL11、CCL13、CCL15、CCL17、CCL18、CCL19、CCL20、CCL21、CCL22、CCL24、CCL26、CCL28、CXCL1、CXCL3、CXCL4、CXCL5、CXCL6、CXCL8、CXCL9、CXCL10、CXCL13、CXCL14、CXCL16、CXCL17、CX3CL1在胰腺癌中表达显著上调,其他趋化因子家族基因无显著表达差异。2.在PDAC患者趋化因子家族全成员对生存的影响分析中,CCL5、CCL18、CCL20、CCL28、CXCL3、CXCL5、CXCL8、CXCL9、CXCL10、CXCL11、CXCL17、CCL21、CCL22、CXCL1、CXCL6、CXCL16、CX3CL1显著高表达的患者总生存期更短,反之,CCL3和CCL14呈高表达的患者表现出较好的预后。3.在TCGA-PAAD队列趋化因子的基因组改变分析中,虽然趋化因子发生基因组改变组和未改变组的总生存期和无病生存期(Disease-free survival,DFS)没有显著的差异,但18.12%的PDAC样本(27/149)至少具有一个趋化因子基因组改变事件,其中CCL1、CCL11和CCL27是PDAC患者中最常改变的基因(均为8%)。4.在趋化因子组合的皮尔逊相关系数分析中,我们鉴定了635种具有正相关(0.15<r<0.88,p<0.05)和8种具有负相关(-0.21<r<-0.15,p<0.05)的趋化因子基因组合。PCA结果证实了CXCL9、CXCL10、CXCL11、CCL17、CCL18、CCL22的m RNA表达密切相关,存在着相似的m RNA表达水平,而CCL27、CXCL14、CXCL8、XCL2、CCL24的m RNA表达之间似乎是独立的。5.无监督分层聚类分析获得了趋化因子相关的三个患者簇,簇#1,#2和#3分别包含13名、82名和82名患者,簇#2、#3与#1相比具有较短的OS(p=0.0061),并一致性的影响无进展生存期(Progression-free survival,PFS,p=0.0093),OS良好的簇#1主要特征是CCL24、CCL25、CCL3、CXCL12、PPBP、CCL8、XCL2、CCL4、PF4、CCL21、CXCL16、CXCL13、CCL23、CXCL17、CXCL11、XCL1、CX3CL1、CCL13、CCL2、CXCL2、CCL19、CCL5、CXCL9、CCL11、CXCL10、CXCL14、CCL17、CCL7、CXCL3、CXCL1、CCL18、CCL28、CCL22、CXCL8、CCL20、CXCL6、CXCL5的表达较低。簇#2、簇#3与簇#1相比具有更高的风险比(分别为HR=5.4,95%CI=1.7-17,p=0.005和HR=4.4,95%CI=1.4-14,p=0.013)。第二部分趋化因子相关基因预后模型的建立和免疫特征分析1.在TCGA-PAAD数据集的差异基因分析中,可以观察到1244个基因在#2和#3簇中表达显著上调,另外有1183个基因表达显著下调。对这2427个典型差异基因进行GO和GSEA分析,我们发现,差异基因主要富集于T细胞激活调节、免疫效应调节过程、单核细胞分化、细胞粘附、细胞因子结合和信号受体激活的功能。2.通过LASSO回归获得了22个预后相关的基因,并通过多因素Cox回归构建了以SRRM4、TRIM67、SLC18A1、SPRR1B、IL4、IGFBP2、AMER2、LY6D、SYT3、MUC21、FAM181B、MYBPHL、INSYN2B、FAM25A、SLURP1、PRB1、TMCO5A、C10orf99、CXCL11和GNB3基因为特征的预后模型,该风险模型的AUC为0.83,一致性指数在5年生存的预测中大于0.7。3.患者簇#2、#3具有更高的基质评分、免疫评分和ESTIMATE评分,同时肿瘤纯度显著低于簇#1患者(p<0.0001)。同时,我们在趋化因子相关预后特征的风险分组中,也得到了相似的结果,在高风险评分组中患者具有更高的基质评分、免疫评分、ESTIMATE评分和较低的肿瘤纯度(p<0.0001)。4.qRT-PCR结果验证了趋化因子相关风险模型中的多个关键基因,其中AMER2、SLC18A1、C10orf99、GNB3、IGFBP2基因在多株胰腺癌细胞系中呈显著高表达,而FAM181B和CXCL11基因在胰腺癌细胞系均呈低表达(p<0.05)。结论:1.趋化因子家族成员在胰腺癌中的表达存在显著差异,并且与胰腺癌患者的OS密切相关。2.无监督的分层聚类分析能够识别趋化因子特征,显示为趋化因子家族成员广泛低表达(37/43)的患者簇具有更好的OS,提示其可能作为潜在标志物用于临床预后的评估。3.低表达趋化因子家族基因的PDAC患者相比于高表达趋化因子的患者,在T细胞激活调节、免疫效应调节过程、单核细胞分化、细胞粘附、细胞因子结合以及信号受体激活等免疫功能上存在显著差别。4.趋化因子相关的基因SRRM4、SPRR1B、IL4、IGFBP2、SYT3、MYBPHL、INSYN2B、TMCO5A、C10orf99、CXCL11可能是PDAC的独立预后因素。5.PDAC患者趋化因子相关预后模型高风险组具有更高的基质评分、免疫评分和更低的肿瘤纯度,同时具有更多的抑制性免疫细胞的浸润。