论文部分内容阅读
研究背景三阴乳腺癌(triple-negative breast cancer,TNBC)是一种独立临床病理类型的乳腺癌,其肿瘤细胞表面雌激素受体(estrogen receptor,ER)、孕激素受体(progesterone receptor,PR)及人表皮生长因子受体 2(human epidermal growth factor receptor 2,HER-2)均为阴性,约占所有乳腺癌类型的10%~20%。基因共表达网络分析(weighted gene co-expression network analysis,WGCNA)是基于高通量的微阵列技术,在mRNA水平上探索基因网络与疾病或者研究者关注的性状之间的关联关系,致力于寻找与研究目的相关的基因模块及基因。因此,本研究旨在基于WGCNA方法对公共数据库中的TNBC数据进行分析,在mRNA水平上研究基因网络与TNBC预后的关系,探讨影响TNBC预后的相关基因及其发生发展的分子机制。研究目的1.建立基于公共数据库中TNBC样本的基因表达数据库和临床信息数据库;2.构建TNBC的基因共表达网络,确定与其预后相关的基因模块及基因,并阐明其主要富集的生物学过程和通路;3.探寻相关基因在mRNA表达水平上对TNBC的预后作用,为进一步的研究提供参考和理论基础。材料和方法1.在 Gene Expression Omnibus(GEO)数据库中以“breast cancer”为关键词检索,经过数据处理,得到TNBC数据集。数据集纳入的标准为:(1)数据库标本种属为人类;(2)数据库类型为序列矩阵;(3)样本量≥100;(4)具有完善的临床结局和随访时间信息。同时纳入The Cancer Genome Atlas(TCGA)数据库中的TNBC数据集。2.提取所有符合要求的数据集中的基因表达值和临床特征信息。当数据集中多个数值对应一个基因位点时,取其均值作为该基因的表达值。在R3.5.1软件中利用scale包等对数据进行预处理,删除基因表达值缺失≥10%的基因,并根据基因表达值的方差,取方差变异前50%的基因,对所获得的数据进行清洗、整理和标准化。3.在R3.5.1软件中,利用WGCNA包,构建TNBC基因共表达网络,得到基因共表达模块。采用Cutoff Finder网站选择合适的截断值,将基因模块的特征值和基因表达值转换为二分类变量。采用单因素和多因素Cox比例风险模型分析基因模块和基因对TNBC患者的预后作用。采用Mann-Whitney U test分析基因在组间表达的差异。利用Cytoscape软件,构建可视化的基因模块共表达网络。采用ClueGO插件,对相关基因模块进行 Gene Ontology(GO),Kyoto Encyclopedia of Genes and Genomes(KEGG)的富集分析。研究结果1.按照本研究的入选标准,共纳入5个TNBC数据集(GSE16446,GSE25055,GSE25065,GSE58812,TCGA)。通过数据的预处理,建立包含459例样本,5782个基因表达值的TNBC数据库。2.通过加权基因共表达分析,得到11个基因模块,最小的模块中包含38个基因,最大的模块中包含2251个基因。以是否复发或转移为生存结局,对11个基因模块进行多因素生存分析,结果显示红色模块与TNBC的预后相关(HR=0.38,95%CI:0.18-0.79;P=0.010);黄绿色模块与 TNBC 的预后相关(HR=0.41,95%CI:0.25-0.69;P=0.001);黄褐色模块与 TNBC 的预后相关(HR=3.41,95%CI:1.46-7.96;P=0.005)。计算11个基因模块特征值与临床表型之间的相关系数,结果显示红色模块与TNBC的临床分期存在相关性(r=-0.12,P=0.030);绿色模块与TNBC的临床分期存在相关性(r=0.11,P=0.050)。根据是否复发或转移将病人分成两组,结合基因模块的特征值,采用Mann-Whitney U test分析组间模块特征值的差异,结果显示红色模块的基因特征值在两组间的差异有统计学意义(Z=-2.39,P=0.017)。综合上述分析,将红色模块确定为影响TNBC预后的关键基因模块。3.在Cytoscape中,利用ClueGO对红色模块进行富集分析。GO分析显示在红色模块的276个基因中,主要参与mRNA加工、有丝核分裂的调节、拓扑不正确蛋白的细胞反应、共生体的相互作用、高尔基体囊泡转运、有丝分裂胞质分裂、TOR信号传导的调节、RNA聚合酶II启动子的转录延伸、通过膜束缚定位细胞器及组蛋白赖氨酸甲基化等生物学过程。KEGG分析显示在红色模块的276个基因中,这些基因主要参与Hedgehog信号通路(KEGG:04340),GnRH信号通路(KEGG:04912)和甲状腺激素信号通路(KEGG:04919)。4.在Cytoscape中,对红色模块的基因共表达网络进行可视化,并根据基因之间的连接度,计算红色模块中276个基因表达值与红色模块特征值的相关系数,筛选出相关性较强的基因,得到12个与TNBC预后相关的基因(APC,ATRX,CHD1,CHD9,COL4A3BP,DCP2,DMXL1,KIAA1033,RAPGEF6,TRIM23,TTC37,ZFYVE16)。以是否出现复发或转移将病人分成两组,联合12个基因进行ROC曲线分析,曲线下面积AUC为0.570,P值为0.023。Mann-Whitney U检验结果表明ATRX的mRNA表达在两组TNBC患者中的差异有统计学意义(Z=-2.25,P=0.024)。对12个基因进行生存分析,多因素生存分析结果提示,ATRX与TNBC的复发(或转移)相关(HR=0.60,95%CI:0.38-0.96;P=0.033);CHD9与TNBC的复发(或转移)相关(HR=0.37,95%CI:0.15-0.93;P=0.033);TRIM23 与 TNBC 的复发(或转移)相关(HR=0.29,95%CI:0.09-0.93;P=0.038)。结论1.本研究是首次将WGCNA方法应用于TNBC基因表达分析的研究。结果表明该方法能够发现具有生物学意义的基因模块。在本研究中,红色模块被确定为影响TNBC预后的关键基因模块,高表达的红色模块特征值预示着TNBC有较好的预后结局。2.红色模块中的基因主要参与TOR信号传导、组蛋白赖氨酸甲基化、Hedgehog信号通路和GnRH信号通路等生物学过程和通路,提示这些途径可能是影响TNBC形成和进展的关键途径和重要机制。3.本研究结果显示,APC,ATRX,CHD1,CHD9,COL4A3BP,DCP2,DMXL1,KIAA1033,RAPGEF6,TRIM23,TTC37 和 ZFYVE16 是影响 TNBC 预后的相关基因。提示,这些基因在转录组(mRNA)水平上可能影响TNBC发生发展的过程,为探讨TNBC预后的分子机制提供了新的思路。但由于研究的局限性,研究结果仍需要人群研究或者实验研究进行进一步的验证。