论文部分内容阅读
研究目的:肝细胞性肝癌是一种高死亡率的原发性肝癌,全世界每年新增超过70万个新病例,是近十年来最普遍发生的癌症之一,其致死率在各类癌症中位居第一。肝细胞性肝癌由于其复杂的病理学机制,大大加重了临床上对其进行诊断与治疗的难度,同时其预后情况也不甚理想,超过2年生存期的预后病例不足5%。对于该病的提早诊断、有效治疗及改善预后状况有十分重要的意义。近年来,尽管有很多分子生物学研究已经致力于探究肝细胞性肝癌的潜在的病理学机制,但我们对其详细分子机制仍然认识的不够全面。本研究旨在通过对与肝细胞性肝癌相关基因表达数据的分析,进而运用系统生物学工具确定肝细胞性肝癌相关的生物靶标分子,探索肝细胞性肝癌内在的生物过程及各个生物过程之间的联系,以及基于网络分析的方法来挖掘特异性疾病网络中的疾病子网络及其相关功能,可以为后续研究与临床治疗提供重要的支持。研究方法:1.文献(研究)检索与入选标准本研究通过在Gene Expression Omnibus(GEO,http://www.ncbi.nlm.nih.gov/geo/)数据库选定检索特定芯片平台(GPL570)关键字,并对其检索结果进行筛选,只保留肝细胞癌组织数据样本以及肝细胞癌患者外周血单个个核细胞(peripheral blood mononuclear cell)样本基因芯片数据集作为入选数据集。2.差异表达基因的筛选通过R软件以及Affy软件包对各个样本表达数据集原始数据进行读取预处理(去背景噪声,标准化等)。此外,引入limma包来筛选各个数据集的差异表达基因并根据阈值log(Fold Change)(log FC)>1或log(Fold Change)(log FC)<-1并且校正P值P.adjust<0.05统一筛选得到每个表达数据集的差异表达基因(Different express gene,DEG)。通过将各个数据集所获得的DEG进行卡方检验并筛选meta值小于0.01的差异基因得到综合基因集。通过对此基因集使用Genecards(http://www.genecards.org/)以及Phenolyzer(http://phenolyzer.wglab.org/)数据库中疾病相关基因进行筛选得到最终的综合差异表达基因集。3.HCC相关差异表达基因的功能分析应用Over-representation analysis(ORA)方法分别确定最终的综合差异表达基因集中上调基因与下调基因中的显著富集的KEGG生物学通路,并使用R软件以及Cluster Profiler包对上述基因集进行GO功能分析。4.功能互作分析根据显著富集的KEGG生物学通路所映射的基因以及基因之间的交叠对通路之间的互相作用进行打分并排序,将互作结果使用Cytoscape软件进行可视化。观察通路之间的相互作用关系。5.人类蛋白互作网络与疾病模块构建根据已搭建的人类蛋白质互相作用网络(Protein-Protein Interaction Network,PPIN)中所包含的228096个蛋白质互作对以及16022个蛋白质,对得到的综合差异表达基因集进行映射,构建肝细胞癌疾病特异性网络。将疾病特异性蛋白质网络导入Cytoscape进行可视化,并利用MCODE插件进行疾病模块的识别。6.网络拓扑性质分析对已构建的肝细胞癌疾病特异性网络的节点度进行统计,并与参考基因集所构建的网络(包含595个来自于cancer gene census database http://cancer.sanger.ac.uk/cancergenome/projects/cosmic/的癌症相关基因所映射的癌症网络以及242个帕金森症相关基因锁映射的帕金森症疾病网络)的节点度进行比较。估计构建网络的拓扑性质。研究结果:1.文献(研究)检索与入选标准通过以芯片平台(GPL570(Affymetrix Human Genome U133 Plus 2.0 Array)[GEO Accession])以及肝细胞癌组织[Title]或肝细胞癌症外周单核细胞(PBMC)[Title]为关键字检索GEO数据库,共得到10个符合要求的表达芯片数据集(截止至2017年5月),共包含488个样本。2.差异表达基因的筛选经过limma包以及阈值log(Fold Change)(log FC)>1或log(Fold Change)(log FC)<-1且满足校正P值P.adjust<0.05的统一筛选后,计算各个筛选后基因的meta P值,通过筛选meta P<0.01的差异表达基因,共得到794个上调(Up-regulated)与959个下调(Down-regulated)基因。经过与肝细胞癌性状相关的3485个来自于Gene Cards的基因以及17720个来自于Phenolyzer的基因对其进行优选后,共得到了444个DEG作为最终优选基因集。3.生物学功能分析通过引入ORA(Overrepresentation analysis)方法对最终优选基因集进行KEGG功能分析,在117个上调基因中,7个通路(FDR<0.05)显著富集,267个下调基因中,27个通路被显著富集。这些通路主要与P53信号通路,化学致癌因素,脂肪酸代谢和精氨酸合成等相关。此外,经过R软件包cluster Profiler进行的GO功能分析结果显示,此444个最终优选基因集中,上调基因集主要与生物过程(Biological Processes,BP)中的细胞周期,有丝分裂核分裂,染色单体分离相关。另一方面,下调基因主要与BP中的对物质或刺激的反应(如无机物、药物、金属离子和胞外刺激)和有机酸分解代谢过程相关。4.功能互作分析我们引入了功能互作分析(Pathway crosstalk)来更进一步地理解富集通路结果并发现它们之间的相互影响,最终从39个通路之中得到了171通路互相作用对。基于这些结果,进一步引入了cytoscape插件MCODE来寻找整体互作网络之中的子部分模块,最终得到了两个互作模块,其中一个模块与多种癌症通路和病毒感染相关,另一个模块主要包含化学致癌因素通路、发育相关生物通路以及能量代谢生物通路。5.人类蛋白互作网络与疾病模块构建通过将最终优选基因集映射入已发表的人类蛋白质互相作用网络中,我们得到了肝细胞癌特异性疾病网络,其中共包含272个节点以及528条边。将此网络引入cytoscape进行可视化并使用MCODE插件进行模块识别,结果共发现5个模块的MCODE分数大于3。对此5个模块进行KEGG通路富集,结果显示分数最高的疾病模块主要与类固醇激素生物合成、化学致癌、亚油酸代谢与色氨酸代谢相关,其他四个模块主要与细胞周期,P53信号通路,补体和凝血级联反应相关。6.网络拓扑性质分析经过对肝细胞癌疾病特异性网络、参考癌症基因集特异性网络以及帕金森基因集特异性网络的节点度进行统计比较。结果发现在节点度(degree)阈值高于200时,HCC特异网络与癌症相关特异网络具有更相近的拓扑关系(其中HCC网络平均节点度为42.3,癌症相关特异网络平均节点度为73.7,帕金森症特异网络平均节点度为32.9)。7.生存分析我们统计了在HCC特异性网络中节点度排名前10与中介度排名前10的差异基因。通过对其进行取交集,共得到了6个中心基因,分别为CDK1,MYC,CDKN1A,JUN,PCNA以及SHC1。其中CDK1拥有最高的节点得分(15.44)。为了评估这些中心基因,我们使用survival R包并引入了Kaplan-Meier图对其进行了生存分析。结果显示两个中心基因(JUN与CDK1)的表达量与生存时间成显著的负相关关系。研究结论:1.肝细胞癌的潜在生物学分子机制十分复杂。经过本研究的数据挖掘,主要与病毒感染,化学致癌因素、发育相关生物通路、P53信号通路以及能量代谢生物通路的异常相关,引起肝细胞癌的发生发展。2.中心基因CDK1,MYC,CDKN1A,JUN,PCNA以及SHC1在肝细胞性细胞癌的发生与进展中可能起到了关键作用,尤其是CDK1与SHC1的高表达与生存时间呈显著的负相关关系。可作为肝细胞性细胞癌后续进一步研究的潜在生物靶点。3.与帕金森相关基因集相比,HCC相关基因以及癌症特异相关基因具有更高的连通度,反映了癌症与精神类疾病之间具有显著差异。4.本文所使用的方法以及分析流程可也可以作为对于其他复杂疾病的研究思路框架,为探索更多的潜在的复杂疾病生物靶点提供一定的支持。