论文部分内容阅读
随着高通量生物技术的快速发展,使得生物医学领域产生了大量不同类型的组学数据。如何整合不同来源、不同尺度的高维组学数据去分析和研究复杂生物系统的生命活动规律和复杂疾病的内在机制是目前生物医学研究的一个热点和难点。本博士论文通过集成异源、多尺度的高通量组学数据,运用新的数学模型和优化算法,将复杂生物系统构建成多尺度生物网络模型。基于构建的多尺度生物网络模型,综合运用张量计算、线性控制、图论和统计学等理论,分别从单层网络、多层网络和时序多层网络三个不同的网络层次研究了多尺度网络的拓扑性质、网络中心性和网络控制等,以此来解决一些重要的科学问题。本论文的主要创新性工作有以下四个方面:1.基于共表达网络的数学建模与定量分析预测基因异构体的生物学功能。本文通过共表达网络的数学建模与定量分析,主要探索以下两个重要的科学问题:(i)对来源于同一个基因的不同基因异构体,识别出哪些异构体在功能上是类似的,哪些异构体在功能上是具有显著差异的;(ii)对来源于同一个基因的不同异构体的生物学功能进行预测。具体的分析思路和结果概述如下:首先,基于外显子表达谱数据,本文提出了两个新颖的矩阵相关性方法(MINet和RVNet方法)去构建共表达网络。具体来说,MINet方法是基于互信息矩阵的统计假设检验方法,而RVNet方法则将矩阵RV相关系数应用于定量评估两个基因(或异构体)的共表达关系。数值实验揭示,MINet方法在样本量充足和两个基因(或异构体)外显子数目相差非常大时具有较高的预测精度,而RVNet方法在小样本的情形下具有较好的性能。进一步,基于两个方法在构建共表达网络方面的优势,本文整合MINet和RVNet方法到一个统一的框架,命名为Iso-Net方法。其次,以人类骨髓分化过程中起重要作用的12个转录因子的109个基因异构体作为研究对象,运用Iso-Net方法构建了基因-异构体共表达网络。通过定义网络节点间的Jaccard相似系数等定量指标,本文一共识别了7个转录因子中总计21个特殊的基因异构体,它们在相应的细胞系中与同一个基因的其他异构体在共表达关系上具有显著的差异。同时,基于共表达网络中每个基因异构体连边的基因集合,通过GO功能富集分析对来源于同一个基因的不同异构体的生物学功能进行了预测。总之,数值实验结果揭示,本文的研究成果提供了一个通用框架去分析和预测基因异构体的生物学功能,对生物学家后续的实验分析和功能验证具有重要的指导意义。2.在张量计算框架下识别多层网络中的关键节点。基于多层网络的4阶邻接张量表示,本文提出了一个新的中心性指标:张量奇异向量中心性,用于定量评估多层网络中节点的重要性。首先,本文设计了一个张量迭代计算的算法去获得四个中心性指标,分别命名为节点的Hub和Authority中心性和网络层的Hub和Authority中心性,它们能够从不同的角度去评价多层网络的节点和层的重要性。其次,本文从理论上严格证明了,在一定的条件下,这四个中心性指标分别收敛于多层网络邻接张量的四个奇异向量。进一步,通过整合这四个指标,本文提出了张量奇异向量中心性去评价多层网络中节点的重要性。将上述指标运用于两个实际的癌症(胃癌和结肠癌)多层网络,以此来识别与两个癌症相关的关键致癌基因。实验结果表明,与现有的方法进行比较,本文提出的方法具有较高的预测精度和鲁棒性。这些研究成果提供了一个基于张量计算的中心性指标,为探究复杂疾病的致病基因和药物靶标的筛选提供了新的思路和工具。3.多尺度网络的可控性和控制能量研究。可控性理论在复杂生物网络中的广泛应用已经证实,研究生物网络的可控性可以从系统的角度揭示生物机制、识别药物靶点等许多关键的生理或医学问题,这对改善人类生活至关重要。本文分别从单层网络和多层网络两个不同的网络层次研究了多尺度网络的可控性和控制能量,其主要理论分析和数值模拟结果概述如下:对于单层网络,利用矩阵代数理论和图论的相关方法,本文首先研究了复杂网络控制能量标准的边界估计问题。通过理论推导揭示了控制不稳定的正规网络比控制相同规模的稳定正规网络消耗的能量代价要少。其次,结合理论分析和数值模拟发现,网络控制能量消耗与节点度呈现负相关关系,即控制节点集的度之和越大,实现完全可控所需要的能量消耗就越少。最后,基于上述结论,本文提出了一个多目标优化模型来实现网络的完全可控,该方法既保证了控制节点数目尽可能少,同时也要求控制所需的能量消耗尽可能的低。对于多层网络,本文系统地探讨了层间耦合强度和耦合方式对多层网络可控性和控制能量的影响。首先,结合理论推导和数值模拟分析揭示,层间耦合强度和控制能量呈近似线性关系,而耦合强度与网络可控性标准是一个分段函数关系。其次,通过数值实验分析揭示,层间度大的节点相连,是控制能量消耗最少的层间耦合方式,但却是网络可控性最低的层间耦合方式。这些研究结果为选择层间耦合强度和耦合方式以实现多层网络可控性最大化和控制能量成本最小化提供了有意义的理论和实践指导。4.整合时间和空间尺度的时序多层网络建模与定量分析。在实际生活中,大多数现实和工程系统,特别复杂生物网络系统,都是随着时间和空间尺度的变化而动态变化的。为了整合不同尺度的多维异构数据去分析复杂生物系统的生命活动规律和复杂疾病的内在机制,本文提出了一个一般化的网络模型:时序多层网络,它将网络拓扑结构随时间和空间变化的规律整合到一个统一框架来系统描述,提供了一个更加自然和合理的模型去描述现实世界的复杂系统。进一步地,本文引入5阶张量框架来表示时序多层网络,它简洁地表示了时序多层网络复杂的拓扑结构。在5阶张量表示的模型框架下,本文提出了一些重要的网络拓扑指标,包括重叠度、节点网络熵、度中心性相关系数和链路重叠等,以此来定量评估网络中节点和连边的异质性以及时序多层网络中层间的交互和依存关系。特别地,本文提出了两个基于张量迭代计算的方法去定义网络的两个中心性指标:TM-特征向量中心性和TM-PageRank中心性,以此来定量评估时序多层网络中节点的重要性,它们综合考虑了不同时间点和不同网络层中邻居节点的影响力。运用多元线性代数和矩阵分析的理论,本文严格证明了上述迭代公式的收敛性。将上述指标运用于两个实际的时序多层生物(流感和心脏病)网络,数值实验结果揭示,本文提出的中心性方法具有较高的预测精度、分辨率和收敛速度。