论文部分内容阅读
背景与目的:乳腺癌、肺癌与结肠癌是全球女性最常见的三类恶性肿瘤。尽管早期诊断、根治性手术和辅助治疗已经极大地提高了乳腺癌患者的生存率和预后,但目前乳腺癌仍是女性癌症死亡的一大重要原因。随着高通量测序技术和生物信息学方法的讯速发展,通过不断地钻研乳腺癌发生发展的生物信息学基础,继而力求最大限度地提高早期诊断及治疗效果具有非凡意义。非编码RNA(non-coding RNA,nc RNA)是一种由DNA转录但不翻译成蛋白质或极少数翻译为蛋白质的RNA分子。而环状RNA(circular RNA,circ RNA)作为一类重要的nc RNA,近年来被发现在乳腺癌诞生、迁移、侵袭、转移、抗化疗和抗辐射以及乳腺癌预后等方面均表现出不俗的调节作用。本研究通过整合基因表达总编(Gene Expression Omnibus,GEO)数据库乳腺癌circ RNA、微小RNA(micro RNA,mi RNA)及m RNA相关数据信息,构建乳腺癌circ RNA相关的竞争内源性RNA(competing endogenous RNA,ce RNA)预后网络,为乳腺癌患者预测预后风险提供一定的依据。方法:在GEO数据库中分别下载乳腺癌circ RNA、mi RNA及m RNA的表达数据,筛选其中差异表达的circ RNA、mi RNA及m RNA。通过癌症相关环状RNA数据库(Cancer-specific Circ RNA Database,CSCD)找到差异表达的circ RNA对应的存在海绵作用的mi RNA,与乳腺癌中差异表达的mi RNA取交集,所取交集部分再通过DB数据库、Target Scan数据库、Tar Base数据库三大mi RNA相关数据库找到与其特异性结合的m RNA,再与先前得到的差异m RNA取交集,即可获得乳腺癌circ RNA表达相关的m RNA,从而构建乳腺癌circ RNA相关ce RNA网络。在TCGA数据库中下载TCGA-BRCA的临床生存数据,将TCGA中样本的生存数据与乳腺癌circ RNA相关的m RNA表达数据相结合,进行单因素COX分析及多因素COX分析,利用最终得到的m RNA表达谱和回归系数构建生存相关的风险评估模型和乳腺癌circ RNA相关ce RNA预后子网络。用R中的“Survival ROC”及“surcomp”包评价模型的预测能力,同时计算出预后模型的C指数。最后利用GSEA软件预测多因素COX回归分析后所选择的m RNA所富集的信号通路。结果:从GEO数据库下载8个乳腺癌组织样本和3个癌旁组织样本中的circ RNA表达数据,通过筛选后共获得55个差异表达的circ RNA,其中表达上调的circ RNA35个,表达下调的circ RNA 20个。后再从GEO数据库中下载mi RNA表达数据,通过差异基因筛选后,获得139个差异表达的mi RNA,其中表达上调的mi RNA 86个,下调53个。再从GEO数据库获得26个乳腺癌组织样本和5个癌旁组织样本中的m RNA表达数据,在差异基因筛选后,获得了1105个差异表达的m RNA,其中449个上调,656个下调。55个差异表达的circ RNA在CSCD数据库可预测到存在海绵作用的mi RNA有1483个,将其与在乳腺癌中差异表达的139个mi RNA取交集得到乳腺癌circ RNA相关mi RNA 52个。再将52个mi RNA通过DB、Target Sca、Tar Base三个mi RNA相关数据库预测存在调控作用的m RNA有1933个,将其与乳腺癌中差异表达的1105个m RNA取交集,得到乳腺癌circ RNA相关m RNA 98个。将两个交集部分及差异表达的circ RNA、mi RNA及m RNA用Cytoscape软件进行处理,得到以30个m RNA、8个mi RNA及7个circ RNA构建的ce RNA网络并将其可视化。基于对乳腺癌circ RNA相关m RNA的单因素COX回归分析,筛选出4个m RNA,并重建4个m RNA的基因表达和临床数据矩阵,并进行多因素COX回归分析,筛选得到3个m RNA,利用Cytoscape软件构建与3个m RNA(TPD52、SAV1及PDCD4)存在调控关系的Circ RNA-mi RNA-m RNA预后子网络并进行可视化。同时利用GSEA软件分析得到3个m RNA(TPD52、SAV1及PDCD4)在细胞外基质-受体相互作用、细胞周期循环、细胞粘附及糖基磷脂酰肌醇锚定蛋白的生物合成等信号通路中显著富集。时间依赖的ROC表明,该风险评估模型在预测乳腺癌患者3年、5年及10年生存预后较为稳定(3年、5年及10年生存率的ROC曲线下面积AUC分别为0.615、0.591和0.694);计算该预后风险模型的C指数为0.61(95%CI:0.55—0.66),其结果说明,该模型具有比较好的预测能力。所得K-M生存曲线表明高风险组的总体生存预后较差,且两组之间存在的差异有统计学意义(P=1E-05),结果说明该预后风险模型在乳腺患者的预后预测中有较好的评估效能。结论:基于乳腺癌circ RNA-mi RNA-m RNA轴构建的预后风险模型能比较好的对乳腺癌病人的生存预后作出预测,构建的乳腺癌circ RNA相关ce RNA预后网络为乳腺癌的早期检测和术后治疗提供参考。