基于7个基因的三阴性乳腺癌预后模型的构建及表达验证研究

来源 :兰州大学 | 被引量 : 0次 | 上传用户:coding_key
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究目的:三阴性乳腺癌(Triple Negative Breast Cancer,TNBC)是一种治疗方式有限、预后差的乳腺恶性肿瘤,本研究旨在探寻对TNBC致病及预后相关的潜在生物标志物、构建相关预后模型,并通过q RT-PCR验证预后模型中基因的m RNA水平。研究方法:从TCGA和GEO数据库分别下载乳腺癌(TCGA-BRCA)m RNA基因表达谱数据及临床数据和GSE76275芯片数据,剔除没有临床数据的样本,利用RStudio3.6.0的“limma”包对TNBC样本及非三阴性乳腺癌(non-Triple Negative Breast Cancer,non-TNBC)样本进行差异表达基因(Differentially Expressed Genes,DEGs)分析,利用Venny在线工具取两个数据集共有DEGs并进行可视化。共有DEGs被载入DAVID数据库进行基因本体论(Gene Ontology,GO)和京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)富集分析,以初步探究与TNBC发生发展相关的潜在机制和通路。此外,使用STRING在线数据库以及Cytoscape3.9.0软件探索共有DEGs之间的蛋白相互作用网络(Protein-Protein Interaction Networks,PPI)关系。通过单因素COX比例风险回归分析确定与TNBC预后高度相关的潜在基因,利用多因素COX比例风险回归分析以预后关键基因为因变量构建COX比例风险回归模型。根据模型中位风险评分将TNBC患者列为高风险组和低风险组,并分别进行Kaplan-Meier(K-M)生存分析。使用“survival”和“time ROC”软件包构建时间依赖性受试者工作特征曲线(Receiver Operating Characteristic Curve,ROC),评判风险评分模型的准确性。为进一步验证预后模型中基因的m RNA水平,本研究采用RT-PCR检测其在TNBC细胞系及nonTNBC细胞系中的m RNA水平。研究结果:(1)经过差异表达基因分析,本研究从GSE76275基因芯片中获得478个DEGs,其中上调DEGs183个,295个DEGs为下调基因;从TCGA-BRCA数据集中鉴定出3286个DEGs,其中1605个上调DEGs和1681个下调DEGs。两个数据集进一步取交集,共获取363个共有DEGs,包括上调基因209个,下调基因154个。(2)对上述363个DEGs做富集分析,GO结果表明DEGs主要富集在细胞增殖、细胞增殖的正向调节、有丝分裂核分裂、乳腺腺泡发育、微绒毛组装的调控、转录正调控、刷状缘膜、细胞外区域、顶端等离子体膜、蛋白质的细胞外基质、质膜的组成部分、细胞内面上细胞器、酶结合、钙离子结合、增强子序列特异性DNA结合、转录激活活性、表皮生长因子受体结合等生物过程。KEGG通路富集分析则显示DEGs与卵母细胞减数分裂、细胞周期、雌激素信号途径、神经胶质瘤等信号通路相关。(3)指定P<0.05,对上述363个共有DEGs进行单因素COX比例风险回归分析,共筛选出23个与生存时间相关的基因。(4)多因素COX比例风险回归分析进一步确定7个与预后预测相关的基因并构建模型,根据风险模型评分中位数对患者进行分组,结果显示高风险组患者较低风险组患者的预后差(P<0.05)。ROC曲线显示5年生存率的曲线下面积(Area Under Curve,AUC)为0.876,提示预后基因模型拥有良好的生存预测能力。(5)利用q RT-PCR检测构成模型的7个基因在TNBC细胞系及non-TNBC细胞系中的m RNA水平。结果显示,与non-TNBC细胞系相比,MLK4、LMO4、UGT8、ZNF280B的m RNA在TNBC细胞系中呈高水平,而FABP7、MS4A7、KCND2呈相应低水平(P<0.05)。研究结论:本研究通过生物信息学分析建立了一个与TNBC预后相关的7基因模型(LMO4、MAP3K21、UGT8、FABP7、KCND2、MS4A7、ZNF280B)。其中,LMO4、MAP3K21、FABP7、ZNF280B表达越高,预后越好,可称为保护性因子;UGT8、KCND2、MS4A7表达越高,预后越差,可称之为危险性因子。它们可为TNBC的早期诊断和预后预测提供可靠的生物标志物,并为新的分子靶向治疗提供理论依据。
其他文献
目的:对胃癌中的自噬相关基因(autophagy related genes,ARGs)进行生物信息学分析,构建由ARGs组成的预测胃癌患者预后风险的模型。方法:胃癌患者基因表达数据及临床病理资料来源于GSE66229,Gene Cards数据库下载获得6866个ARGs。获取并筛选差异表达的ARGs进行GO和KEGG功能通路富集分析。利用Cox和LASSO回归建立ARGs的预后风险评分模型。依据
学位
在当代数据飞速发展的时代,数据规模以指数级增加,其也在人们的生活中表现的不可或缺,同时也极大的影响着人们生活。因此,通过技术手段对数据中重要的信息精准快速的提取、识别、分析与分类,高效地挖掘出对我们有价值的信息也成为了当前重要的研究课题。学者们以机器学习作为一种手段,经过多年的研究,提出了诸多成熟的模型,这些模型都是针对均衡数据样本设计的。然而在日常生活中随着数据的应用领域不断扩大,数据的结构呈现
学位
无线通信技术和汽车智能网联化的快速发展推动了智能交通系统(Intelligent Transportation System,ITS)的建设,车联网络(Vehicular Ad Hoc Network,VANET)作为智能交通重要组成部分,近年来受到了国内外学者和政府的广泛关注。车联网通信环境的特殊性包括车辆的高速移动、车辆协同困难以及网络拓扑结构频繁变化等特性,对于数据传输的服务质量(Quali
学位
急性心肌梗死(acute myocardial infarction,AMI)导致的心源性休克(cardiogenic shock,CS)是AMI病人死亡的重要原因之一,静脉-动脉体外膜肺氧合(Veno-arterial extracorporeal membrane oxygenation,VA-ECMO)作为一种机械循环辅助装置可以维持血流动力学的稳定,降低心脏前负荷,为进一步的经皮冠状动脉介
学位
背景:椎间盘退变(Intervertebral disc degeneration,IDD)是下腰痛(low back pain,LBP)的主要原因之一,然而目前尚无有效的针对病因的治疗药物。IDD的发病机制与髓核细胞(Nucleus pulposus cells,NPCs)在氧化应激介导下细胞凋亡、衰老及细胞外基质降解有关。N-乙酰血清素(N-acetylserotonin,NAS)是一种松果体
学位
计算机成像系统被广泛应用于图像检测、无人驾驶和军事侦察等领域,但雾、霾等天气环境会对其采集到的户外图像产生较大的影响,导致光线传播过程中发生折射和散射等光学现象,使计算机成像系统采集的原始图片出现各类图像质量下降问题,如图像可见度下降、图像颜色偏移和图像内容细节缺失等,影响并限制成像系统获取的图像真实信息。因此,对采集到的图像素材进行清晰复原处理具有一定的现实意义。本文对各类去雾算法进行探究与分析
学位
铁路中出现行人、车辆以及动物等异物会对列车运行产生非常大的安全隐患,所以,如何准确快速的检测出侵入铁路安全界限的异物目标对于列车的安全运行有着非常重要的意义。传统的异物检测方法运算速度较快,但是铁路周边的场景复杂且多变,现有基于阈值分割或背景差分算法很难满足需求,这使得铁路异物检测的自动化程度不高,有很大一部分工作仍需要人工完成。基于深度学习的异物检测算法相对传统方法可以提取到更高层、表达能力更强
学位
近几年,我国在电气化铁路建设方面成果显著,铁路里程数已处于世界领先地位。绝缘子是铁路运输电网中的关键部件,但绝缘子常年裸露在户外环境中,其表面容易积攒灰尘等杂质,潮湿天气下会形成导电性溶液,导致绝缘子局部放电,热故障频发,严重影响列车的行驶安全。现阶段绝缘子巡检仍以人工为主,但该方法已不能满足维护我国铁路发展的需要,因此如何实现自动化巡检具有重要的现实意义。本文主要研究如下:(1)为了获取图像中绝
学位
据世界卫生组织称,新型冠状病毒大流行正使世界各地的卫生医疗系统面临前所未有的压力。目前诊断COVID-19的金标准是进行RT-PCR检测,但由于该方法具有采样方式受限、假阴性率高、资源紧缺等问题,胸部CT检测已成为临床辅助诊断COVID-19的有效方法。然而,随着疑似病例的增加,单纯依靠放射科医生手工分割大量的CT影像面临严峻挑战,迫切需要研究出对COVID-19感染进行自动分类的方法。随着计算机
学位
近代医疗技术的快速发展,计算机技术、数据存储技术和数据挖掘技术的突飞猛进,致使人类目前对疾病的诊断与治疗的境况也有了极大的改善。癌症肿瘤一直是人类生命杀手之一,但人类对于癌症的发现与诊断还是存在手段单一的问题,并且由于癌症的发生是源于自身细胞的遗传物质变异导致细胞无限增值,造成癌症不易被诊断;其次癌症数据的处理也是目前的一大难题,癌症数据样本少,且真假样例分布极不平衡,同时样本又具有超高维数的特点
学位