论文部分内容阅读
研究背景及目的:乳腺癌目前已经被认为是全球女性癌症患者中最常见的恶性肿瘤,它通常也是发达国家和发展中国家妇女癌症相关死亡的主要病因。世界卫生组织(世卫组织)针对癌症每年的评估报告表明,2012年,估计全球有170万例乳腺癌患者,占所有癌症病例的25%,其中521,900例乳腺癌相关死亡病例,占所有癌症死亡的15%。在南美、非洲和亚洲的许多国家乳腺癌年均发病率在不断增加,且逐渐发展趋向年轻化[1]。根据中国的研究数据分析表明,在妇女中,乳腺癌是30至59岁最常见的癌症,是45岁以下女性癌症死亡的主要原因[2]。随着每年新增病例人数的进一步增加,乳腺癌逐渐发展成为我国,甚至全世界最重要的医疗保健问题和经济负担(Montero等人,2012年;Tao等人,2015年)。因此,鉴于癌症预防和控制依赖于基于人群的发病率和死亡率数据,我们应采取行动和评估当前干预措施,制定更加有效的乳腺癌诊断与治疗策略。乳腺癌是一种高度特异性的肿瘤,其治疗和预后与许多因素有关。目前为止,已知的对于乳腺癌早期治疗、临床手术与预后的影响因素主要包括患者的年龄、肿瘤大小、淋巴结转移情况以及组织学分级等特征。而在一定细胞分子结构层面上的雌激素受体(ER)、孕激素受体(PR)、人表皮生长因子受体-2(HER-2)、Ki-67蛋白的表达水平在乳腺癌预后方面也起着不可替代的作用。且随着先进的精准医学、高通量测序集成技术与基因组检测芯片技术的高速发展,越来越多的学者将注意力转移到了乳腺癌分子治疗领域。因此,研究乳腺癌早期发生和其进展的分子生物学基础,发现相应的诊断和治疗分子标记物,鉴定新型的乳腺癌预后生物标志物将有助于预测其生物学行为,构建对于指导临床诊治至关重要的预测乳腺癌患者的预后工具,且有助于改善设计个体化治疗方案并开发出新的治疗靶点。DNA损伤与损伤修复基因的表达与各种肿瘤的发生及生物学行为相关,提示其作为预后标志物和治疗靶标的潜力。关于DNA损伤修复基因表达在乳腺癌中的预后价值既往有不同报道。在本研究中,我们利用与整合TCGA数据库(癌症基因组图谱数据库(The Cancer Genome Atlas,TCGA))中有关乳腺癌的转录组信息和临床数据,分析乳腺癌样本和正常样本中差异表达的基因,构建与乳腺癌DNA损伤修复基因密切相关的临床预后风险模型,探讨DNA损伤修复基因在乳腺癌中的表达及临床治疗价值,并在总体乳腺癌患者中验证该模型的预测价值,从而为寻找新的乳腺癌靶向治疗方式提供一定的参考价值。方法:通过癌症基因组图谱计划(The Cancer Genome Atlas,TCGA)网站下载TCGA-BRCA转录组的Manifest和Metadata数据,然后借助GDC-client下载工具,在cmd环境下下载原始HTSeq-Counts数据,利用Perl语言脚本提取原始数据的表达矩阵,通过Ensembl 网站下载 Homosapiens.GRCh38.95.chr.gtf.gz 文件,比对后得到基于 gene symbol的基因表达谱矩阵;利用R语言的“limma”包对乳腺癌与正常乳腺mRNA表达数据进行差异表达基因(Differentially expressed genes,DEGs)筛选,设置筛选条件为(|logFC |>1.0 和 the adjusted pvalue,FDR<0.05);然后,一方面利用 David网 站(https://david.ncifcrf.gov/tools.jsp)、KOBAS 网 站(http://kobas.cbi.pku.edu.cn)分别将得到的差异基因进行G0功能富集分析,获取差异的乳腺癌DNA损伤修复基因,利用Cytoscape和R语言将结果可视化。将David网站与KOBAS网站两种方法获得的DNA损伤修复基因集合并。另一方面,通过Amigo2数据库(http://amigo.geneontology.org/amigo/landing)下载编号为G0.0006281 的DNA损伤修复基因集,利用R语言“colorfulVennPlot”包处理下载的基因集与差异基因获得具有差异的乳腺癌DNA损伤修复基因。最终整合两方面获得的DNA损伤修复基因并进一步进行KEGG通路富集分析。从TCGA数据库下载TCGA-BRCA的临床生存数据,利用R语言脚本合并生存数据与具有差异的DNA损伤修复相关基因表达数据后,进行单因素COX比例风险回归模型分析,然后根据单因素P值选择与生存预后相关的DNA损伤修复基因进行后续多因素COX回归分析。基于多因素COX回归分析后所选择的DNA损伤修复基因的表达谱和回归系数构建生存相关的线性风险评估模型,计算出每个样本的风险值(risk score),取risk score的中位数为截断值,将样本分为高、低风险组;采用时间依赖的ROC曲线评估预后模型在5年生存期的预测能力,并进一步利用Kaplan-Meier方法绘制高、低风险组的生存曲线。利用R语言随机语句把总体样本分为“test组”和“train组”两部分,test组和train组样本互相独立,重复以上统计学方法计算出两组样本中每个样本的风险值(risk score),根据risk score的中位值将各亚组分为高、低风险组;利用生存分析和ROC曲线对各亚组进行分析,进一步验证预后风险模型的可靠性。结果利用R软件可视化。结果:从TCGA数据库共获得1222个样本的转录组counts数据,其中正常样本113个,肿瘤样本1109个,整合后得到56753个基因表达谱矩阵。同时将下载的临床数据处理后得到1085例女性乳腺癌患者的临床数据。通过差异基因筛选后,共获得差异表达基因4177个,其中上调2247个,下调1930个。将通过David、KOBAS及Amigo2网站分析后获得的112个差异的乳腺癌DNA损伤基因进行单因素COX回归分析,取P值小于0.05后共筛选出18个与预后相关的差异基因,包括RAD54B、RAD21、PARPBP、BRCA1、TIMELESS、CLSPN、CHEK1、CHAF1B、FANCD2、BRCA2、RAD51、MCM4、EME2、HIST3H2A、GINS4、MCM6、CDCA5、PYCARD。其中 15 个差异基因(RAD54B、RAD21、PARPBP、BRCA1、TIMELESS、CLSPN、CHEK1、CHAF1B、FANCD2、BRCA2、RAD51、MCM4、GINS4、MCM6、CDCA5)的回归系数大于零,HR(Hazard ratio)=exp(coef)>1,与患者生存时间呈负相关,3个基因(HIST3H2A、PYCARD、EME2)的回归系数小于零,HR=exp(coef)<1,与患者生存时间呈正相关。重新构建18个预后相关的差异基因的表达量及临床数据矩阵进行多因素COX回归分析,筛选出4个与预后显著相关的基因,分别为:GINS4、RAD54B、BRCA1、EME2。进一步提取4个差异基因的多因素COX分析的回归系数,并计算出每一个样本的风险值,构建由这4个基因组成的预后风险评分模型。预后评分(PI)公式为:PI=-0.14502×GINS4 的表达量+0.43840×RAD54B 的表达量+0.16469×BRCA1的表达量-0.24295×EME2的表达量。计算1078例患者预后评分后,中位值为0.978。1078例患者中共有539例患者纳入高风险组,539例患者纳入低风险组。利用R语言绘制高低风险热图、ROC曲线及K-M生存曲线,时间依赖的ROC曲线说明该风险评估模型对预测乳腺癌患者5年生存预后具有一定的意义(5年生存率的ROC曲线下面积AUC为0.657)。高、低风险组样本的K-M生存曲线表明高风险组患者的总体生存率较低,且两组间差异有统计学意义(P=0.00077)。test组和train组K-M生存曲线同样表明高风险组患者的总体生存率较低,且两组间差异有统计学意义(分别为P=0.04525,P=0.00416),两亚组的ROC曲线5年生存率的AUC分别为0.654和0.605,说明该模型具有一定的稳定性与有效性。结论:基于乳腺癌DNA损伤修复基因构建的风险预后模型能够预测乳腺癌患者的生存预后,对乳腺癌患者预后的评估具有一定的参考价值。结合乳腺癌分子水平的预后因素,可筛选高风险群体,指导制定个体化治疗方案。