论文部分内容阅读
现代肿瘤学的研究的一大进展是发现了大量的癌基因和抑癌基因。但仅仅靠癌基因和抑癌基因并不能解释所有的肿瘤现象,也不能有效解决肿瘤的临床问题。实际上肿瘤是一大类疾病。每个个体肿瘤都蕴含着复杂的分子相互作用关系,比如基因之间的、mRNA和非编码RNA之间的、蛋白质和基因及RNA之间的,等等。这些复杂关系一起决定了肿瘤的复杂性和难治性。因此有必要在整体上把握肿瘤的内在分子机制(比如与肿瘤相关的蛋白质通过互作连接成的网络)。而当前的生物医学技术的快速进展,特别是新一代测序技术的不断进步,使得不同疾病不同条件下的全基因组广度的基因、RNA、蛋白质等的表达谱得到近乎完整捕获,科学家有了从整体上来把握生理或病理的内在分子机制。但大量的高维度数据的产生,使得分析这些巨量数据成了一大挑战。在生物医学家和数学工程人员的共同协作努力下,一大批用于处理不同特征的大数据的生物信息学分析工具得以出现。通过应用这些工具,科学家从生物大数据中挖掘出了以前低通量研究方法捕捉不到的生理或病理的内在分子活动特征。本文首先从整体的角度采用三种不同的方法去获得与肿瘤相关的分子集。首先是用文献挖掘软件GENCLIP从PUBMED公共文献数据库挖掘出文献报道的肿瘤相关基因;其次用GE02R软件从基因芯片表达谱数据库挖掘出肿瘤样本中差异表达的基因;然后从RNAi干扰数据库筛选出对肿瘤细胞行为有明显干扰效果的基因。接着对这三种方法获得的基因进行相交获得交集,该交集再并上一个公认的癌基因集COSMIC,这样的并集本文将之确定为肿瘤相关基因集(Tumor Association Genes Set,TAGS)。通过上述方法,本文获取了一个含7337个基因的肿瘤相关基因集。针对该基因集TAGS,分析了集内的分子特征,比如染色体分布、GC含量、5’ UTR长度,其中TAGS集的5’ UTR的长度长于整个基因组编码蛋白的基因的5’ UTR的长度。本文还将该基因集内基因所代表的蛋白质构成了一个蛋白质互作网络,并分析了该网络的特征,比如度(degree)、介数(betweenness)等,确定了该网络为无尺度网络。最后用网络分析软件Cytoscape鉴定出该网络中有相对较多链接数目的hub蛋白质共698个。这些hub蛋白质与非hub蛋白质相比,由于有相对多的连接,对它们的攻击,很可能影响到整个网络的稳定。因此,这些鉴定出的hub蛋白质可能成为肿瘤诊断和治疗的候选靶点。其次,基于将整个网络划分为局部的子网络能更好地认识网络特性这一事实,本文利用基因本体论(Gene Ontology,简称GO)数据库所包含的主要生物学过程(Biological Process)知识,将每个主要的生物学过程作为一个细胞内的功能模块。并用网络分析软件Cytoscape分析这些生物学过程收纳蛋白质所构成的网络是否是无尺度网络。通过上述方法,本文获取了细胞的30个主要生物学过程所收纳的基因(蛋白质),并确定了所有这些模块内的蛋白质构成的网络都是无尺度网络,用Cytoscape的插件获得了每个功能模块的hub蛋白质。上述30个功能模块中的细胞分裂、细胞分化、细胞程序性死亡和细胞侵袭迁移等四大模块由于和细胞表型命运密切相关,本文称之为四大细胞表型模块。四大模块功能执行了相关的细胞的重大表型改变过程,其中每个过程都存在关键的步骤,是细胞表型改变的直接体现。细胞分裂模块的关键步骤是“染色体分离”和“胞质分裂”;细胞程序性死亡模块的关键步骤是“凋亡的启动”和“凋亡的执行”;细胞分化模块的关键步骤是细胞分化标志物的出现;细胞侵袭迁移模块的关键步骤是“细胞膜或细胞外基质或伪足上的肿瘤转移相关蛋白质的表达。通过文献检索四大模块的关键词,本文确定了这四大功能模块中在关键步骤起决定作用的表型执行蛋白质。接着,利用上述确定的功能模块和表型执行蛋白质,本文分析了诱导人多功能干细胞(induced pluripotent stem cells,iPS)表达谱构成网络,用Cytoscape软件鉴定了重编程因子之一的MYC激活下游细胞周期模块、细胞分裂模块及细胞分裂执行蛋白的信号级联过程。经分析发现,MYC的下游第一、二、三级信号分子基本覆盖了一半以上的细胞分裂模块、细胞周期模块的基因,说明MYC做为转录因子能迅速激活细胞周期和细胞分裂活动。经过该分析,初步探测到MYC在维持干细胞自我更新过程的分子活动。然后本文分析了一个有10例样本的肝癌的表达谱(另附有10例正常对照),利用K均数聚类方法从上述10对样本中鉴定出各功能模块的典型样本。继而分析这些典型样本的基因差异表达模式:hub蛋白的数目、上调表达基因构成的信息级联长度及表型执行蛋白数目。在此基础上,初步获得了判断每个功能模块是否激活的标准。利用该标准,进一步分析另一个汇集了从肝癌癌前病变到早期肝癌和晚期肝癌的表达谱集,判断该疾病动态进展中部分功能模块的激活与否,比如通过分析发现在极早期肝癌细胞侵袭迁移模块没有激活但在肝癌晚期和极晚期该模块激活了。通过对肝癌从癌前到晚期肝癌各阶段各功能模块的激活的判断,从而观察到疾病动态过程中的主要分子网络变化特征。最后,本文在肿瘤相关基因集TAGS中选定一个hub蛋白:真核翻译起始因子4e(EIF4E),采用免疫组化方法分析了该hub蛋白在55例肝癌和癌旁肝组织中的表达,同时分析了它的表达和临床资料关系。通过上述方法发现EIF4E在肝癌高表达,在癌旁有限表达,在正常肝组织低表达或无表达;EIF4E表达与肿瘤的分化程度密切相关。EIF4E可能是一个肝癌的标志物,有可能成为靶向治疗的候选靶点。总之,本文利用多种生物信息工具挖掘了现有的部分生物医学数据库,从中鉴定出了与癌基因特征相似的7337个肿瘤相关基因。并从中筛选出多个hub蛋白,它们有可能成为肿瘤治疗的候选靶点。本文还从网络的模块性特征出发,用GO构建出30个细胞功能模块及四大细胞表型执行蛋白,并将之应用于具体的肝癌的表达谱分析,初步窥探到肝癌的发生发展分子群体特征。本文还用免疫组化方法对上述挖掘出的一个重要hub蛋白EIF4E做了初步的实验验证。