论文部分内容阅读
目的:基于复旦大学附属肿瘤医院数据库中(Fudan University Shanghai Cancer Center,FUSCC)三阴性乳腺癌(Triple-negative breast cancers,TNBC)样本的RNA测序数据及临床特征数据,通过生物信息学的方法探索基于免疫特征的TNBC分型,分析各亚型之间的分子特征和功能识别。并识别转移复发标志基因,构建三阴性乳腺癌的复发风险预测模型,对临床病人的预后情况进行评估。方法:1.从复旦大学附属肿瘤医院数据库下载三阴性乳腺癌RNA测序数据及临床特征数据,剔除未达到入组条件的样本,同时从Imm Port数据库下载免疫相关基因。应用单因素Cox回归法筛选与无复发生存期(Recurrence free survival,RFS)相关的免疫基因。基于与复发相关的免疫基因使用“Consensus Cluster Plus”对TNBC样本进行一致性聚类分析,共重复1000次确保分型的稳定性。通过生存分析、主成分分析(Principal component analysis,PCA)评估分型的有效性。通过R-studio中的“limma”包对分型后的各个亚型进行差异分析,筛选出符合条件:log|FC|>0.5,p<0.05和FDR<0.05的差异基因(differentially expressed genes,DEGs)。分别运用基因本体方法分析这些差异基因的内在功能及基因组百科全书途径方法分析这些差异基因的富集通路。采用CIBERSORT算法推断三阴性乳腺癌研究样本中22种免疫细胞浸润比例,采用“corplot”包检测各亚型之间22种免疫细胞浸润的相关性。2.基于亚型间差异表达的基因,进行单因素Cox回归及多因素相关性分析,筛选出对TNBC复发情况具有独立预测作用的基因。对这些具有独立预测复发风险作用的差异基因应用R语言“survival”包的coxph()功能构建最优的复发风险预测模型。利用复发风险预测模型计算FUSCC中所研究的TNBC患者的风险评分,根据其中位数将研究样本分为高风险组和低风险组,并通过生存分析来评估复发风险预测模型,绘制操作特征曲线(Receiver operating characteristic curve,ROC)曲线再次验证。通过单、多因素分析所构建的复发风险预测模型是否为TNBC患者的独立预后因子。应用皮尔逊相关性检验分析风险评分与免疫细胞浸润的相关性。结果:1.通过FUSCC数据库获取了352例三阴性乳腺癌患者的表达谱数据及相关临床信息,通过Imm Port数据库获取了2498个免疫相关基因,应用单因素Cox回归法分析筛选出51个与复发显著相关免疫基因。一致性聚类分析将TNBC分为稳定的两亚型。K-M分析评估表明两亚型的生存情况具有差异性。主成分分析发现两个亚型样本之间的RNA表达具有特异性。筛选得到Cluster 1与Cluster2间的差异表达基因共计603个(上调、下调差异基因分别为211个、392个)。GO富集分析发现这些差异基因最常见的生物学功能是T细胞活化、淋巴细胞分化、T细胞活化的调节和白细胞活化的正调节;KEGG分析表明差异基因主要在“细胞因子”与“细胞因子受体”相互作用通路,也富集PD-L1/PD-1检查点通路。TNBC样本中主要是以单核细胞、巨噬细胞(M2型)、T细胞(调节性)为主。在这些浸润的免疫细胞中,活化的记忆性T细胞浸润情况与M1型巨噬细胞浸润正相关。2.基于第一部分中得到的603个差异表达的基因,运用单变量Cox回归分析其与RFS的相关性,分析结果显示总共有24个基因与TNBC患者疾病复发时间显著相关,使用多因素相关性分析进一步得到8个能独立预测三阴性乳腺癌转移复发情况的差异表达基因,包括CNTD2、REM1、GREB1L、ACHE、CD1B、CD300LF、GP1BA和MFNG。根据这8个基因的风险系数和表达状况,构建了疾病复发风险预测模型,并计算研究样本的风险评分(Risk score),根据所有研究样本的中位数分为高、低风险组。生存分析显示高、低风险组存在生存差异(p<0.05),同时绘制1、3、5年ROC曲线,曲线下面积(Area Under Curve,AUC)依次是0.752、0.762和0.733,都证明模型有效。单、多因素Cox分析验证了构建的复发风险预测模型是TNBC的独立预后因素。另外,活化的树突状细胞(R=0.29,p<0.001),M0巨噬细胞(R=0.21,p<0.001),M2巨噬细胞(R=0.27,p<0.001),活化的NK细胞(R=0.18,p<0.001)与复发风险预测模型的风险评分显著相关。结论:1.我们基于免疫相关基因将FUSCC数据库中的TNBC样本很好的聚类为两亚型,且两亚型在预后生存情况、m RNA表达和微环境中免疫细胞浸润方面的差异性具有良好的相关性。2.筛选了8个能独立预测三阴性乳腺癌转移复发情况的差异表达基因CNTD2、REM1、GREB1L、ACHE、CD1B、CD300LF、GO1BA和MFNG且其构建的风险预测模型可以很好的预测TNBC患者的复发风险情况。