论文部分内容阅读
背景与目的:肺腺癌(lung adenocarcinoma, LAC)属于非小细胞肺癌组织学亚型的一种,发病率居于肺鳞癌之后。起初相关临床症状不明显,早期就有发生血行转移的可能。对于早期LAC患者,尽早接受手术切除能够有效提高他们预后生存时间。但是,个体差异使得不同患者术后疗效相差较大。除了已知的年龄、临床分期(TNM分期)和血管浸润等因素以外,为有效推测术后生存时间,检测基因及其产物的表达水平已经成了重要的肿瘤诊断和预后参考依据。已证实EGFR-、 HER2-、 ALK-、 KRAS-、 BRAF-、 RET-、MET-、T53-和 ROS1-基因的突变与肺腺癌的预后相关。那么,是否存在未知但有潜在预后价值的基因影响了LAC的病情进展?本研究采用数据挖掘算法重新分析LAC基因表达谱数据,望从中挖掘出潜在的差异表达特征基因,为靶向治疗和预后评估提供有价值的线索。 材料与方法:本研究从基因表达数据库(Gene Expression Omnibus, GEO)中筛选基因表达谱,基于U133系列平台的基因芯片技术和数据挖掘技术,对早期LAC基因表达谱进行深入挖掘。经过质量控制、一体化算法(背景校正、数据标准化和汇总)、批次效应的处理后,所有合格样本根据生存时间四分位间距进行分组,其中将短期生存组(小于所有生存数据的25%百分位数)和长期生存组(大于75%百分位数)构造实验对比矩阵。通过经验贝叶斯算法求得差异表达基因后,再对其进行基因本体论(Gene Ontology, GO)分析和通路分析。对差异表达基因和临床数据进行log-rank检验和Cox回归模型拟合,计算预后指数(prognostic index, PI)。根据survival ROC曲线确定最佳PI临界值,推测预后效果。 结果:从GSE14814, GSE31546, GSE50081和 GSE68465筛选得到578个合格的样本。短期生存组(小于30个月,n=146),长期生存组(大于75个月,n=145)作为对比组进行差异表达基因的计算,最终筛选得到23个差异表基因(P<0.01, Fold Change=6)。从GO分析和KEGG通路分析中得到,HLA-DQA1和HLA-DQB1作为与预后生存有密切相关的基因,参与了T淋巴细胞聚集、IgA产生的免疫网络等生物功能通路。将23个差异表达基因和基本临床数据纳入Cox回归模型,经逐步回归后得到含有10个自变量的预后模型(TRIM2,CPM,HLA-DQB1,TSPYL5,IGHD,DPP4,PMO5, clinical stage,age, adjuvant therapy)。经多因素Cox回归分析得接受辅助治疗的患者是接受辅助治疗的患者死亡风险的2.01倍。10年survivalROC曲线下面积为0.77,最佳PI临界值为0.97,敏感度为0.50,特异度为0.82;5年survivalROC曲线下面积为0.72,最佳PI临界值为1.28,敏感度为0.45,特异度为0.85。 结论:1)筛查得出23个差异表达基因与早期LAC预后有密切的关联性,尤其是HLA-DQA1与HLA-DQB1两个基因,与肺腺癌预后有密切相关关系;2)HLA-DQA1与HLA-DQB1参与HLA Class II(MHC class II)复合物的构成,并可能通过MHC-肽-TCR机制联合促进IgA+B细胞活化的代谢通路,进而将抗原肽呈递给T细胞,从而产生免疫应答使细胞毒细胞(Cytotoxic Cell, CTL)直接杀死肿瘤细胞;3)根据Cox多因素回归分析可知大部分早期LAC患者接受辅助治疗并不能有效改善预后生存。Cox模型中,TRIM2、CPM、HLA-DQB1、TSPYL5、 IGHD、PMO56个基因为保护因子,DPP4、辅助治疗、临床分期和年龄为危险因子。当预测10年预后生存时,整个模型分类价值较好。即当早期LAC患者PI值小于0.97时,预示该患者可能预后生存较佳,生存期可能大于120个月。