论文部分内容阅读
研究背景头颈部鳞状细胞癌(head and neck squamous cell carcinoma,HNSCC)是一种起源于唇部、口腔、喉部和咽部黏膜上皮的恶性肿瘤。全球每年有超过655000个头颈部鳞状细胞癌新发病例,同时约有90000人死于该疾病。尽管人们对该疾病风险因素了解不断深入、使用的治疗方法不断进步,患者5年生存率仍低于50%。与HNSCC患者的预后相关因素有宿主身体状态、肿瘤本身的TNM分期和病理分级等。然而,这些因素无法对患者生存时间或是复发等预后情况进行准确预测。近年来,在研究影响患者预后因素方面,研究人员将目光集中在分子生物学领域。HNSCC相关的凋亡、铁死亡、自噬、代谢和免疫基因集的分析成为了研究人员关注的热点。通过某基因集合中多种标志物将头颈部鳞状细胞癌患者分为高风险组和低风险组可能成为预测患者预后的新策略。头颈部鳞状细胞癌的发生发展和预后与病毒感染、遗传变化、环境因素和代谢失衡密切相关。其中,代谢失衡在肿瘤的发生发展中起着重要作用。肿瘤发生发展中代谢模式发生显著变化的过程被人们命名为代谢重编。代谢重编不仅是肿瘤的一个标志,还是由多基因调控和多种通路介导的复杂过程。随着科技发展和科研数据共享,研究人员可以访问并利用全球范围内公共数据库中的高通量基因表达数据和临床信息,用以分析头颈部鳞状细胞癌患者基因的表达情况和临床信息之间的关系。高通量测序数据的普及让肿瘤的基因表达改变研究变得简单易行,也让本研究分析该疾病患者代谢相关基因与临床预后的相关性成为可能。同时,分析头颈部鳞状细胞癌细胞和正常组织细胞间的差异表达基因及其调控的通路,有助于我们理解代谢相关基因在肿瘤发生发展中的作用。目的基于公共数据库数据集构建头颈部鳞状细胞癌代谢相关预后模型,筛选对患者预后有重要影响的代谢相关基因,从而为临床诊断及预后分析提供依据。材料与方法首先,从分子特征数据库(MSig DB)中获取所有代谢相关通路中包含的基因。使用R语言作为差异基因筛选工具,从癌症基因组图谱数据库(The Cancer Genome Altas,TCGA)中筛选502例头颈部鳞状细胞癌样本和44例正常组织样本的差异基因(p<0.05,log2|差异变化倍数(Fold Change,FC)|>1.0),作为训练组;将基因表达公共数据库(Gene Expression Omnibus,GEO)中的GSE65858数据集作为测试组。而后,将训练组数据集进行单因素Cox回归分析与最小绝对收缩和选择算子(least absolute shrinkage and selection operator,LASSO)Cox回归分析,用于筛选与头颈部鳞状细胞癌患者预后相关的基因,构建代谢相关基因预后LASSO Cox模型并得到风险评分截断阈值,根据风险评分中位截断值分别将训练组和测试组划分高风险组和低风险组,并进行的Kaplan-Meier生存分析。同时对训练组和测试组进行单因素和多因素Cox回归分析对该模型风险评分进行验证。同时,采用了受试者工作特征(receiver operating characteristic,ROC)曲线评价该模型的预测能力。最后,将模型纳入的基因进行基因本体数据库(Gene Ontology,GO)与京都基因和基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)通路富集分析。同时,构建蛋白质互作网络(Protein-Protein Interaction Networks,PPI)以探索模型中的基因在头颈部鳞状细胞癌中的可能作用机制。在筛选出模型纳入的基因后,利用基因表达谱交互分析(Gene Expression Profiling Interactive Analysis,GEPIA)数据库分别分析这些基因在头颈部鳞状细胞癌和正常组织中的m RNA表达差异,并进行单基因Kaplan-Meier生存分析;对GSE103322数据集进行单细胞m RNA测序数据分析,以辨明模型基因在各类型细胞中的表达量;同时利用人类蛋白质图谱(The Human Protein Altas,HPA)数据库检测目标基因在头颈部鳞状细胞癌和正常组织中的蛋白水平表达差异;选取样本,利用Label-free蛋白质组学技术对模型中基因进行定性与定量,并对肿瘤组织和癌旁组织进行了配对t检验差异分析。结果本研究筛选出78个代谢相关差异表达基因,通过单因素Cox回归分析过滤以及LASSO Cox回归分析去掉过度拟合的基因后,最终有9个代谢相关的基因用作预后模型的构建,如下:次黄嘌呤磷酸核糖转移酶1(Hypoxanthine Phosphoribosyl Transferase 1,HPRT1)、乳酸脱氢酶(Lactate dehydrogenase A,LDHA)、脯氨酰4-羟化酶亚基α1(Prolyl 4-hydroxylase subunit alpha 1,P4HA1)、甲基四氢叶酸脱氢酶2(Methylenetetrahydrofolate dehydrogenase 2,MTHFD2)、乙醇脱氢酶7(alcohol dehydrogenase 7,ADH7)、精胺合酶(Spermine synthase,SMS)、DNA甲基化转移酶1(DNA methyltransferase 1,DNMT1)、糖原磷酸化酶L(Glycogen phosphorylase L,PYGL)和腺苷脱氨酶(Adenosine Deaminase,ADA)。Kaplan-Meier生存分析结果显示,与低风险组相比,高风险组的预后更差:训练组p=5.732*10-8;测试组p=4.778*10-3。训练组中,1年、3年和5年的曲线下面积(area under curve,AUC)值分别为0.653,0.700和0.677;测试组中,1年、3年和5年的AUC值分别为0.697、0.625和0.665。单因素和多因素Cox回归分析结果同样证明,在训练组和测试组中构建的代谢相关预后模型的风险评分是头颈部鳞状细胞癌患者的一个独立预后因素(p<0.05)。GO和KEGG富集分析结果表明,与该模型最相关的GO生物过程术语有:核糖磷酸代谢过程、单生物体代谢过程、次黄嘌呤回收、小分子代谢过程、次黄嘌呤生物合成过程、GMP回收和AMP回收;与该模型最相关的KEGG通路为代谢通路。PPI网络构建展示出,模型中的9个基因对应的蛋白仅DNMT1蛋白与其他8个蛋白无关联,绘制了余下8个蛋白的PPI网络图。通过分析GO和KEGG富集分析结果以及PPI网络,绘制出了以HPRT1蛋白和ADA蛋白参与的核糖磷酸代谢过程通路图。在GEPIA数据库中,对比这9个基因在肿瘤组织与正常组织中的转录水平差异,并进行生存分析。结果发现,满足差异标准为|log2FC|>1.0同时qvalue<0.01的有HPRT1、ADA、ADH7、DNMT1、MTHFD2、P4HA1、PYGL和SMS,这里ADH7显示为下调基因;LDHA在转录水平未见明显差异。生存分析结果显示,HPRT1、MTHFD2、P4HA1和SMS的m RNA高表达组预后较差(p<0.05);DNMT1的m RNA低表达组预后较差(p<0.05);而ADA、ADH7、LDHA和PYGL转录水平的高低表达与患者预后无关。基于单细胞RNA序列数据集GSE103322的分析结果显示,HPRT1、LDHA、SMS、ADH7和PYGL在肿瘤细胞中表达程度最高;ADA在内皮细胞中表达程度最高;DNMT1和P4HA1在单核/巨噬细胞中表达程度最高;MTHFD2在成纤维细胞中表达程度最高。基于Label-free定量蛋白质组学技术对肿瘤组织和癌旁组织进行配对t检验差异分析结果:HPRT1蛋白、DNMT1蛋白、LDHA蛋白、MTHFD2蛋白和P4HA1蛋白在配对t检验中存在表达差异(p<0.05);而ADA蛋白、ADH7蛋白、PYGL蛋白和SMS蛋白未呈现出统计学差异。在HPA数据库中,ADA蛋白、HPRT1蛋白、MTHFD2蛋白和PYGL蛋白在正常组织中未见到对应抗体的染色剂染色,而在头颈部鳞状细胞癌组织中呈低度、中度和高度染色;DNMT1蛋白在正常组织呈低度染色,而在头颈部鳞状细胞癌组织中呈中度染色;LDHA蛋白在正常组织中呈中度染色,但在头颈部鳞状细胞癌组织中呈高度染色;P4HA1蛋白在正常组织和头颈部鳞状细胞癌组织中均呈高度染色;ADH7蛋白在正常组织中呈高度染色,但在头颈部鳞状细胞癌组织中未见到对应抗体的染色剂染色。以上提示,在肿瘤组织中,这9个基因的转录和翻译水平并不完全一致,提示不同基因在该肿瘤中的差异性作用。结论本研究使用TCGA-HNSCC数据构建了头颈部鳞状细胞癌患者的预后模型用于区分高低风险组患者和预测患者预后。该模型中纳入了HPRT1、LDHA、P4HA1、MTHFD2、ADH7、SMS、DNMT1、PYGL和ADA这9个基因,定义了一种新的代谢基因特征。该特征模型反应了头颈部鳞状细胞癌患者代谢基因和相关代谢通路的改变,并为预测患者预后提供了有意义的生物标志物集合。