论文部分内容阅读
在后基因组时代,理解基因、非编码RNA、蛋白质和其他相关生物分子的功能,提示生物过程的实现机理成为当前计算系统生物学和生物信息学最重要的研究目标之一。随着高通量技术的迅速发展,产生了大量的基因组学、转录组学和蛋白质组学等组学数据,为生物分子功能研究提供了新的契机。然而,如何分析利用这些组学数据并从中挖掘出有价值的信息仍然是巨大的挑战。生物分子网络是应用组学数据研究细胞生命活动的有力工具,对揭示各个生物过程的实现机理有很大的启发和推动作用。生物网络不仅能够清晰的表示生物大分子间错综复杂的作用关系,而且有助于系统地探索分子间的协同作用规律。因此,以基于图论的数据挖掘方法为手段,分析生物网络的拓扑特征和功能特征,设计算法发现重要的网络拓扑子结构,对识别生物过程中重要的调控模式和调控通路具有重要的意义。本文从多种类型的生物网络出发,主要研究工作如下:(1)对蛋白质相互作用网络、转录调控网络、miRNA调控网络和共调控网络分别进行了拓扑特征分析,包括网络的特征路径长度、平均聚集系数、节点度分布、节点的邻节点度分布等,总结发现同一类型不同物种及不同类型的生物网络拓扑结构之间的共性和差异性,为设计合理的网络模型构建方法及网络拓扑子结构发现算法提供依据。(2)通过分析蛋白质相互作用网络中的相互作用密度,发现具有相同年龄的蛋白质更倾向于进行相互作用,而具有不同年龄的蛋白质则避免产生相互作用。进一步分析网络模体结构的年龄一致性模式发现,形成网络模体的蛋白质也存在类似的倾向性。针对现有网络演化模型无法生成具有这一生物特征的仿真网络问题,提出一种新的基于网络模体的蛋白质网络演化模型。与现有网络模型构建算法相比,基于网络模体的演化模型不仅能够较好的刻画蛋白质网络的拓扑结构特征,如节点度分布、特征路径长度等,且能够生成与真实蛋白质网络相互作用密度一致的网络。对网络拓扑特征形成机制的研究为功能模块及网络模体发现算法奠定了理论基础。(3)针对现有miRNA调控网络中调控功能模块识别算法时间复杂度较高,且难以有效利用转录调控数据和蛋白质相互作用数据等问题,提出一种新的miRNA调控模块识别算法Mirsynergy。首先利用LASSO回归模型,结合miRNA/mRNA表达谱数据及基于序列信息预测的miRNA调控作用数据来构建可靠的疾病特异miRNA调控网络;随后设计基于邻节点扩展思想的两阶段聚类算法。与现有的miRNA调控模块发现算法相比,Mirsynergy不仅具有更低的时间复杂度,且识别出的调控模块显著富集于更多的生物功能过程和经典通路。通过生存分析发现多个具有潜在临床诊断价值的调控模块。(4)上述Mirsynergy算法在较为稀疏的miRNA调控网络中识别效果较好,但在相对稠密的网络中则识别效果欠佳。针对该问题,提出一种新的基于二分团合并的miRNA调控模块发现算法BCM。算法首先枚举出网络中所有指定规模的最大二分团,并生成相应的随机网络集合检验每个二分团的统计显著性。随后基于贪婪策略迭代的合并满足给定显著性阈值条件的二分团来产生调控模块。与Mirsynergy相比,BCM算法识别出的调控模块调控关系更为紧密,且模块中的miRNA和mRNA具有更高的负相关表达系数。通过生存分析和乳腺癌亚型分析也发现多个具有潜在临床诊断价值的调控模块。(5)针对共调控网络由于节点类型增加导致的网络模体发现算法时间复杂度较高、共调控网络随机化不充分等问题,提出一种新的共调控网络模体发现算法CoMoFinder。通过增加节点类型限制和并行化策略,极大地降低子图枚举过程的计算开销;并将子图同构判定过程与枚举过程分离,进一步提升算法效率;采用基于边交换的共调控网络分层随机策略,保证共调控网络充分随机化。与已有算法相比,不管是在真实共调控网络还是以网络模体为基本演化单位的演化模型生成的随机共调控网络中,CoMoFinder的识别准确度和健壮性都要优于现有算法。对识别出的共调控网络模体进行功能分析说明其富含的生物功能过程和经典通路信息都要显著高于非网络模体的共调控子图。