论文部分内容阅读
研究背景与目的:在世界范围内,肺癌是发病率和死亡率最高的恶性肿瘤之一,其中肺腺癌(Lung adenocarcinoma,LAC)是肺癌最常见的病理类型之一。由于肺癌患者早期缺乏明显的临床症状,当患者出现症状就诊发现肺癌时往往已经错过了治疗的最佳时机。目前临床上发现和诊断肺癌主要通过影像学检查和组织活检,这些手段在肺癌的早期诊断上尚未普及。下一代测序(Next-generation sequencing,NGS)技术为探索疾病的分子特征和机制、发现新的诊断标志物和治疗靶点提供了高通量数据和新途径。本研究旨识别高风险的LAC患者,以便制定更适合的治疗手段和随访策略,从而改善整体预后,同时发现LAC新的生物标志物和分子机制,以促进其诊断、预后、预测、疾病监测和新兴疗法的发展。方法:本研究收集了公共数据库肿瘤基因图谱(The Cancer Genome Atlas,TCGA)上498例含有临床随访信息的LAC肿瘤组织的RNA-seq数据,通过低表达过滤及去重复处理后保留12914个蛋白编码基因信息。将498例LAC患者按病理分期分层随机分为348例的测试集和150例的验证集。对测试集中123例出现临床随访结局的LAC患者的肿瘤组织的编码基因表达谱进行权重基因共表达网络分析(Weighted gene co-expression network analysis,WGCNA),构建基因共表达模块并计算各模块与LAC预后的相关性,选定与LAC预后相关性最强的模块进行基因富集分析及识别其中的关键基因。对测试集的348例病例,基于该模块的关键基因建立LASSO约束的Cox回归模型,由筛选出的基因的表达量与对应的LASSO系数的乘积和作为LAC患者的风险系数。使用受试者工作特征曲线(Receiver operating characteristic curve,ROC曲线)评价模型的区分效果,并且据此设定风险系数对于高风险病例和低风险病例的截断点,在验证集中用Kaplan-Meier生存分析验证模型的预测效果。结果:WGCNA共识别出42个基因共表达模块,模块的基因数量从39到1360不等,进一步对与生存时间负相关最强但与病理TNM分期不显著相关的深红色模块进行分析,其中共有113个基因,基因功能在丝裂原活化蛋白激酶(Mitogen-activated protein kinase,MAPK)级联反应正向调节、Toll 样受体通路、细胞凋亡调节等生物学过程显著富集。识别出其中20个关键基因并运用LASSO方法和建立Cox回归模型筛选4个对总生存期影响显著的基因:OPN3,GALNT2,FAM83A 和 KYNU,其对应的 LASSO 系数为 0.0004,0.0042,0.0055和0.0077。运用风险系数把验证集中的病例区分为高风险和低风险组后运用Kaplan-Meier生存分析后显示出高风险组病例的预后较低风险组差,并且风险系数是LAC总生存期的预测因子,并且独立于TNM分期。结论:本研究对TCGA数据库中LAC的RNA-seq数据进行了 WGCNA,建立了 LAC的基因共表达网络,选择与生存时间相关性最强的模块进行分析,并识别出该模块中的关键基因,进一步建立了 LASSO约束的Cox回归模型,Kaplan-Meier生存分析显示该模型在验证集可将病人按预后情况区分开。本研究为LAC的分子机制揭示了潜在的信号通路和基因共表达网络,为LAC在临床上的管理和决策提供了潜在的诊断标志物和治疗靶点。