基于TCGA数据库构建乳腺癌DNA损伤修复基因预后风险模型

来源 :扬州大学 | 被引量 : 0次 | 上传用户:wjlwny110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究背景及目的:乳腺癌目前已经被认为是全球女性癌症患者中最常见的恶性肿瘤,它通常也是发达国家和发展中国家妇女癌症相关死亡的主要病因。世界卫生组织(世卫组织)针对癌症每年的评估报告表明,2012年,估计全球有170万例乳腺癌患者,占所有癌症病例的25%,其中521,900例乳腺癌相关死亡病例,占所有癌症死亡的15%。在南美、非洲和亚洲的许多国家乳腺癌年均发病率在不断增加,且逐渐发展趋向年轻化[1]。根据中国的研究数据分析表明,在妇女中,乳腺癌是30至59岁最常见的癌症,是45岁以下女性癌症死亡的主要原因[2]。随着每年新增病例人数的进一步增加,乳腺癌逐渐发展成为我国,甚至全世界最重要的医疗保健问题和经济负担(Montero等人,2012年;Tao等人,2015年)。因此,鉴于癌症预防和控制依赖于基于人群的发病率和死亡率数据,我们应采取行动和评估当前干预措施,制定更加有效的乳腺癌诊断与治疗策略。乳腺癌是一种高度特异性的肿瘤,其治疗和预后与许多因素有关。目前为止,已知的对于乳腺癌早期治疗、临床手术与预后的影响因素主要包括患者的年龄、肿瘤大小、淋巴结转移情况以及组织学分级等特征。而在一定细胞分子结构层面上的雌激素受体(ER)、孕激素受体(PR)、人表皮生长因子受体-2(HER-2)、Ki-67蛋白的表达水平在乳腺癌预后方面也起着不可替代的作用。且随着先进的精准医学、高通量测序集成技术与基因组检测芯片技术的高速发展,越来越多的学者将注意力转移到了乳腺癌分子治疗领域。因此,研究乳腺癌早期发生和其进展的分子生物学基础,发现相应的诊断和治疗分子标记物,鉴定新型的乳腺癌预后生物标志物将有助于预测其生物学行为,构建对于指导临床诊治至关重要的预测乳腺癌患者的预后工具,且有助于改善设计个体化治疗方案并开发出新的治疗靶点。DNA损伤与损伤修复基因的表达与各种肿瘤的发生及生物学行为相关,提示其作为预后标志物和治疗靶标的潜力。关于DNA损伤修复基因表达在乳腺癌中的预后价值既往有不同报道。在本研究中,我们利用与整合TCGA数据库(癌症基因组图谱数据库(The Cancer Genome Atlas,TCGA))中有关乳腺癌的转录组信息和临床数据,分析乳腺癌样本和正常样本中差异表达的基因,构建与乳腺癌DNA损伤修复基因密切相关的临床预后风险模型,探讨DNA损伤修复基因在乳腺癌中的表达及临床治疗价值,并在总体乳腺癌患者中验证该模型的预测价值,从而为寻找新的乳腺癌靶向治疗方式提供一定的参考价值。方法:通过癌症基因组图谱计划(The Cancer Genome Atlas,TCGA)网站下载TCGA-BRCA转录组的Manifest和Metadata数据,然后借助GDC-client下载工具,在cmd环境下下载原始HTSeq-Counts数据,利用Perl语言脚本提取原始数据的表达矩阵,通过Ensembl 网站下载 Homosapiens.GRCh38.95.chr.gtf.gz 文件,比对后得到基于 gene symbol的基因表达谱矩阵;利用R语言的“limma”包对乳腺癌与正常乳腺mRNA表达数据进行差异表达基因(Differentially expressed genes,DEGs)筛选,设置筛选条件为(|logFC |>1.0 和 the adjusted pvalue,FDR<0.05);然后,一方面利用 David网 站(https://david.ncifcrf.gov/tools.jsp)、KOBAS 网 站(http://kobas.cbi.pku.edu.cn)分别将得到的差异基因进行G0功能富集分析,获取差异的乳腺癌DNA损伤修复基因,利用Cytoscape和R语言将结果可视化。将David网站与KOBAS网站两种方法获得的DNA损伤修复基因集合并。另一方面,通过Amigo2数据库(http://amigo.geneontology.org/amigo/landing)下载编号为G0.0006281 的DNA损伤修复基因集,利用R语言“colorfulVennPlot”包处理下载的基因集与差异基因获得具有差异的乳腺癌DNA损伤修复基因。最终整合两方面获得的DNA损伤修复基因并进一步进行KEGG通路富集分析。从TCGA数据库下载TCGA-BRCA的临床生存数据,利用R语言脚本合并生存数据与具有差异的DNA损伤修复相关基因表达数据后,进行单因素COX比例风险回归模型分析,然后根据单因素P值选择与生存预后相关的DNA损伤修复基因进行后续多因素COX回归分析。基于多因素COX回归分析后所选择的DNA损伤修复基因的表达谱和回归系数构建生存相关的线性风险评估模型,计算出每个样本的风险值(risk score),取risk score的中位数为截断值,将样本分为高、低风险组;采用时间依赖的ROC曲线评估预后模型在5年生存期的预测能力,并进一步利用Kaplan-Meier方法绘制高、低风险组的生存曲线。利用R语言随机语句把总体样本分为“test组”和“train组”两部分,test组和train组样本互相独立,重复以上统计学方法计算出两组样本中每个样本的风险值(risk score),根据risk score的中位值将各亚组分为高、低风险组;利用生存分析和ROC曲线对各亚组进行分析,进一步验证预后风险模型的可靠性。结果利用R软件可视化。结果:从TCGA数据库共获得1222个样本的转录组counts数据,其中正常样本113个,肿瘤样本1109个,整合后得到56753个基因表达谱矩阵。同时将下载的临床数据处理后得到1085例女性乳腺癌患者的临床数据。通过差异基因筛选后,共获得差异表达基因4177个,其中上调2247个,下调1930个。将通过David、KOBAS及Amigo2网站分析后获得的112个差异的乳腺癌DNA损伤基因进行单因素COX回归分析,取P值小于0.05后共筛选出18个与预后相关的差异基因,包括RAD54B、RAD21、PARPBP、BRCA1、TIMELESS、CLSPN、CHEK1、CHAF1B、FANCD2、BRCA2、RAD51、MCM4、EME2、HIST3H2A、GINS4、MCM6、CDCA5、PYCARD。其中 15 个差异基因(RAD54B、RAD21、PARPBP、BRCA1、TIMELESS、CLSPN、CHEK1、CHAF1B、FANCD2、BRCA2、RAD51、MCM4、GINS4、MCM6、CDCA5)的回归系数大于零,HR(Hazard ratio)=exp(coef)>1,与患者生存时间呈负相关,3个基因(HIST3H2A、PYCARD、EME2)的回归系数小于零,HR=exp(coef)<1,与患者生存时间呈正相关。重新构建18个预后相关的差异基因的表达量及临床数据矩阵进行多因素COX回归分析,筛选出4个与预后显著相关的基因,分别为:GINS4、RAD54B、BRCA1、EME2。进一步提取4个差异基因的多因素COX分析的回归系数,并计算出每一个样本的风险值,构建由这4个基因组成的预后风险评分模型。预后评分(PI)公式为:PI=-0.14502×GINS4 的表达量+0.43840×RAD54B 的表达量+0.16469×BRCA1的表达量-0.24295×EME2的表达量。计算1078例患者预后评分后,中位值为0.978。1078例患者中共有539例患者纳入高风险组,539例患者纳入低风险组。利用R语言绘制高低风险热图、ROC曲线及K-M生存曲线,时间依赖的ROC曲线说明该风险评估模型对预测乳腺癌患者5年生存预后具有一定的意义(5年生存率的ROC曲线下面积AUC为0.657)。高、低风险组样本的K-M生存曲线表明高风险组患者的总体生存率较低,且两组间差异有统计学意义(P=0.00077)。test组和train组K-M生存曲线同样表明高风险组患者的总体生存率较低,且两组间差异有统计学意义(分别为P=0.04525,P=0.00416),两亚组的ROC曲线5年生存率的AUC分别为0.654和0.605,说明该模型具有一定的稳定性与有效性。结论:基于乳腺癌DNA损伤修复基因构建的风险预后模型能够预测乳腺癌患者的生存预后,对乳腺癌患者预后的评估具有一定的参考价值。结合乳腺癌分子水平的预后因素,可筛选高风险群体,指导制定个体化治疗方案。
其他文献
学位
从教师角度来看八年级物理存在的知识难点有哪些?从学生角度来看八年级物理的知识难点又有哪些?针对这一系列的难点又如何进行高效的教学?这是每个物理老师都急需研究和解决的问题。同时,研究这些问题对我们国家初二物理的一线教育具有积极有益的意义。初二阶段学习物理的思维是整个物理学学习思维的基础,初二阶段学习的力学知识同时也是高中必修1及力学部分的基础。笔者所处的地区绝大多数学校使用的物理教科书都是上海科学技
结直肠癌(Colorectal cancer,CRC)是一种常见的消化道恶性肿瘤,它的死亡率在发达国家的恶性肿瘤疾病中排到了第二位。在我国,结直肠癌的每年发病率也在呈现出一种上升趋势,这主要与饮食结构的变化有关,例如现在人们的高蛋白饮食、高脂肪饮食及纤维素的摄入不足等。现阶段,结直肠癌的诊断主要依据患者临床表现、血清肿瘤标志物的测定、肠镜检查、影像学检查等。在治疗上,则是主要以手术治疗为主的多学科
目的:研究眉脂肪垫的解剖位置及形态特征,为其位置调整与固定以改善上睑松垂的手术提供解剖学基础;观察单点内折固定眼轮匝肌(Theorbicularisoculimuscle,OOM)手术对上睑皮肤松弛改善效果、眉高度变化及术后并发症的情况,为上睑年轻化提供一种安全便捷的手术方法。方法:解剖研究:对7例14侧的新鲜冰冻尸头标本(均已行动静脉红蓝乳胶灌注成型)的眉区进行大体解剖,其中男性3例,女性4例,
目的:目前常用于膀胱癌荧光原位杂交(Fluorescence in situ Hybridization,FISH)检测的UroVysion试剂盒在早期膀胱癌的诊断敏感性略低于中晚期膀胱癌,且在中国膀胱癌患者的诊断效率还不确定。我们希望寻找一种新型FISH探针组合用于中国膀胱癌患者的检测,并初步评估其临床应用价值。方法:对来自本院的膀胱癌肿瘤组织样本(n=15)进行了染色体微阵列分析,根据这些数据
函数以简约的形式揭示着世间万物间的变化关系,是中学最重要的学习内容之一。但由于其高度抽象,知识本身难度大,而初中生数学思维发展水平不够成熟,使用抽象思维、辩证思维处理函数问题的能力不足,同时应试教育思想一定程度上仍束缚着教师,种种因素造成初中生的函数学习动机不足、兴趣与积极性明显缺乏,在函数教学中关注动机设计成为了教育者值得思考的问题。动机设计相关的理论模型中,较为系统、且经过不断验证的ARCS动
背景与目的:胃肠道间质瘤(gastrointestinal stromaltumors,GIST)是常见的消化道肿瘤,并不视为单纯的良恶性肿瘤,而是根据危险度分级评估其恶性潜能。已知大多数癌症中,Galectin-1高表达代表高恶性潜能及差的预后。利用GEO数据库检索Galectin与GIST的相关联系,有数据表明Galectin-1在GIST中高表达。而关于间质瘤方面Galectin-1的研究相
作为一项基础的科学,数学能为很多应用科学技术提供有用的指导,让这些科学技术更好的成为国家综合国力的一部分,因此培养数学应用意识有着重要的意义。国际上很多国家都很重视学生的数学应用意识,是因为他们发现学生自我是否有主动应用数学知识的想法,以及能够很好运用数学知识解决问题的能力与此息息相关。然而,在实际进行应用意识培养时,主要面临着初中生数学应用意识薄弱,积极性不高,教师引导能力不足等问题;同时,考虑
洛克沙胂(Roxarsone,Rox)是一种有机砷化合物,具有抗球虫、促进动物生长等作用,目前仍在许多发展中国家作为饲料添加剂使用。洛克沙胂吸收率较低,大多随粪便排出体外,可通过环境及动物性食品途径增加人砷暴露的风险。现有研究发现Rox在体内体外具有促进血管生成的作用。本实验室前期研究表明Rox可通过血管内皮生长因子(VEGF)及其受体(VEGFR)信号,促进血管或肿瘤血管生长。本文拟通过体外血管
目的:通过记录扬州大学附属医院肺结节患者的患病情况,运用中西医一体化模式来评估肺结节(pulmonarynodule,PN)的危险程度,观察自拟复方“扶正散结方”对低、中危肺结节患者的临床疗效。总结出最佳适合“扶正散结方”治疗的临床特征,为肺结节的临床诊疗提供参考价值。方法:通过收集在扬州大学附属医院就诊的胸部电子计算机断层扫描(Computed Tomography,CT)检查发现的180名肺结