论文部分内容阅读
细胞代谢是维持生命体生存和成长的必备条件。生命体的细胞通过酶的催化,在维持各种反应平衡的条件下将营养物质(底物)分解,生成其他营养物质(产物),并为生命体提供能量。从图论的角度,将代谢网络中的所有物质看作具有不同标记的节点,则特定物种的所有代谢反应便构成了该物种的代谢网络。关于代谢网络的拓扑结构、组织规律、功能模体、功能模块以及物种同源性等课题的研究有助于理解生命体内代谢物质的转化规律,从而指导疾病诊断、新药开发、毒理分析等研究。KEGG(Kyoto Encyclopedia of Genes and Genomes)数据库是现有的多个代谢网络数据库中权威和使用率最高的数据库。本文基于KEGG代谢网络,研究了网络的拓扑结构特征,提出了有效的网络模体识别和功能模块发现算法,进行了系统发生分析研究。主要研究工作包括:提出了重建KEGG代谢网络的算法,这是一种无冗余、无数据丢失的代谢网络构建方法,得到该数据库中61个物种的酶-酶关系网络和化合物相互关系网络。按照种系分类,包括15个古菌物种,38个细菌物种和8个真核物种,为基于代谢网络的后续研究提供了准确可靠的数据。详细分析了重建网络的一些拓扑特征,包括度分布、小世界特性、模块化组织结构和蝴蝶结结构,实验结果和已有研究成果基本一致。模体识别的核心问题是频繁子图的挖掘。提出了基于环分布的网络子图发现算法ESRD(Enumerate Subgraphs based on Ring-Distribution),该算法用以高效地枚举网络中的所有k阶子图。为了在确保频繁子图频率精度的条件下提高搜索效率,提出了基于环分布的动态抽样算法。使用4个真实生物网络数据进行实验,验证了本文算法在效率和精度上相对于同类算法的优势。此外,实验列举了代谢网络内的部分3阶和4阶功能模体,这些模体在三个种系中按照Z-Score大小的排列顺序基本一致,反映了代谢网络的高度保守性。代谢网络以模块化方式实现系统功能,特定功能的模块在拓扑上相对保守,存在于各物种的代谢网络中。根据代谢网络中节点的系统发生谱,提出一种新的计算化合物节点的同源相似度的方法,使用AP(Affinity Propagation)算法对网络进行初始划分,按照模块的同源系数逐层进行重叠扩展。该方法不仅可以挖掘各物种间普遍存在的同源功能模块,同时也可以挖掘仅在部分系统发生分支上存在的外围模块。实验结果表明得到的保守功能模块与KEGG数据库提供的参考功能模块具有较高匹配率,外围功能模块体现了功能模块在不同物种内的分布差异。系统发生分析是研究物种起源和演化的重要手段。基于图论的“核”结构,提出了一种代谢网络相似度的比对算法:将不同代谢网络的相似度定义为图的“核”部分与非“核”部分各自匹配程度的加权之和,通过NJ(Neighbor Joining)算法构建系统发生树。通过比较实验得到的系统发生树和NCBI(National Center for Biotechnology Information)分类树,说明本文方法能够更有效地构建系统发生树。