论文部分内容阅读
冠心病(Coronary Artery Disease, CAD)是受多种环境因素和遗传因素影响的复杂性疾病,已经成为威胁人类健康和生命的主要杀手,在全球死因排行榜中名列前茅。研究冠心病相关基因是理解其病因和发病机制的关键所在,主要的实验研究方法有家系连锁分析、候选基因关联分析和全基因组关联分析。多年来,人们利用这些方法研究发现了大量冠心病候选基因,这些基因涉及脂质代谢、血栓形成、肾素-血管紧张素系统、炎症和免疫、内皮结构和功能、细胞外基质重塑、糖代谢、氧化-抗氧化、同型半胱氨酸代谢、血管平滑肌增殖、性激素等多种功能和过程。然而,现在利用上述方法发现冠心病新基因的难度越来越大,而且这些单个候选基因参与冠心病的发生发展调控机制尚不明确。本项目充分整理已有的各种冠心病相关基因信息,利用生物信息学和系统生物学的思想,尝试用一种新的方法,从系统的角度研究冠心病。首先,本项目通过文献阅读的方式,从2000多篇文献中收集到318个冠心病相关基因及其实验数据,以MySQL数据库系统储存和管理这些数据,并开发了方便易用的动态数据库网站CADgene (http://www.bioguo.org/CADgene),用于免费共享收集整理的冠心病相关基因数据。在数据库中,这些已报道的冠心病基因按其所参与的功能或过程被分为12类,方便用户理解其与冠心病的关联。并且,每个基因,除了提供其在文献中描述的与冠心病相关的详细证据信息外,还进一步做了详细的基因注释,包括其基本信息、Gene Ontology注释信息、KEGG信息和蛋白质相互作用信息等。CADgene既是对已有研究结果的归纳和整理,也为冠心病研究领域提供了一个有用的数据库资源。其次,本项目利用多种生物信息学手段,以蛋白质相互作用(PPI)分析(数据取自BioGRID和HPRD)、pathway分析(数据取自KEGG和Biocarta)等方法,对CADgene数据库中收集的318个基因进行以下系统研究:第一步,本研究设计了一套程序,以CADgene数据库中的318个基因为诱饵,利用PPI分析、pathway分析、STRING分析以及PathwayStudio分析,并进行多轮迭代,几乎遍历人基因组中所有的基因,最后捕获了与初始诱饵基因有关联性的752个基因。第二步,本研究定义“两个蛋白质同在一个pathway且有蛋白质相互作用”为P关系,以此为限定条件,利用矩阵分析,从捕获的752个基因中筛选了360个至少与一个CADgene中的基因有P关系的基因。第三步,从P关系角度,对筛选到的360个和CADgene数据库中的318个基因进行分子网络分析。初步揭示了这些基因形成的网络的拓扑结构,如三个层次、四个部分和七个模块等,根据所得到的网络,易于得知每个基因所处的分子网络环境,进而探究其在CAD进程中的功能。而且在此基础上,本研究进一步从360个基因中筛选到179个在功能上与CAD进程密切相关的基因,如小窝蛋白CAV1、LDL受体接头蛋白LDLRAP1、NADPH氧化酶亚基(NOX1、CYBB)等。本项目是利用生物信息学方法进行冠心病基因研究的第一次尝试,尽管有一些不足,但以上这些结果初步显示本项目设计的系统方法的功效,也给我们利用这种方法继续深入研究树立了信心、积累了数据和经验。