论文部分内容阅读
基因调控网络(Gene regulatory network,GRN)是由细胞中的脱氧核糖核酸、核糖核酸、蛋白质、代谢物所构成的相互作调控网络。自然界中,具有较好适应性的生物体才能获得更多的生存机会。GRN的适应性研究具有重要的生物学意义。利用基因表达观测数据辨识基因间的调控关系有助于实现系统的白化。本文针对GRN的适应性功能和基于观测数据的GRN可辨识性两个方面进行了研究,主要工作和结论如下:(1)利用改进的优化算法提高了具有适应性的三节点GRN的拓扑、参数辨识效率以及解的质量。分别以变拓扑的、定拓扑三节点GRN为研究对象,提出了几种改进的启发式搜索方法,解决了拉丁超立方抽样方法(Latin hypercube sampling,LHS)辨识适应性网络时存在的效率不高、解质量不高的问题。1.)建立了变拓扑三节点GRN的Michaelis-Menten数学模型,提出了基于多目标遗传算法辨识具有适应性GRN的方法(包括拓扑解与参数解),提高了拓扑、参数辨识效率。2)针对积分控制节点负反馈回路(Negative feedback loop with a buffering会node,NFBLB)拓扑的三节点 GRN,提出了改进的多目标粒子群算法,获得了高质量的参数解使GRN具备更好的适应性(高敏感度与高精确度)。本章提供了多种优化方法方案并对比了结果,为优化方案选择提供了指导,为后续章节分析适应性与参数的关系提供了充足样本。(2)分析了具有适应性功能三节点GRN的参数分布规律。以积分控制节点的负反馈回路(NFBLB)和比例控制节点的不致前馈回路(Incoherent feedforward loop with a proportionernode,IFFLP)拓扑的三节点GRN为研究对象,分析了适应性动态特性。首先,提出了两个新的时间指标以更全面、精准地描述适应性动态。其次,以高敏感度、高精确度为优化目标,峰值时间、调整时间为约束条件,利用七种约束多目标算法获得了足够大量的参数解。随后,对参数解进行了模糊C均值聚类分析,得到了期望适应性GRN的参数取值范围;找到了满意适应性和更好适应性网络的参数模式。最后,分析了不同拓扑GRN的四个适应性指标,明确了适应性动态更多地取决于网络拓扑,而不是网络参数。这些结果对于设计具有适应性功能的GRN具有重要的指导意义。(3)提出了基于基因表达观测数据的GRN可辨识性问题,定义了可辨识性指标,给出了观测数据实验设计的指导原则。为了明确观测数据对GRN辨识准确性所造成的影响,以5节点S-system模型的GRN为研究对象,设计了 3种数据采集方案:特定初始条件下暂态数据(方案1),稳态数据(方案2),脉冲激励响应的动态观测数据(方案3),利用改进的遗传-粒子群算法辨识GRN的参数。仿真计算结果表明:利用方案1的观测数据,GRN可辨识;利用方案2的观测数据,GRN不可辨识;同时,根据系统平衡点理论解释了 GRN不可辨识的原因,并利用数值解验证了这一结论。虽然采用方案1的观测数据,GRN是可辨识的。但是,方案1中的观测数据来自系统特定初始条件下的零输入响应。对于生物系统,记录零输入系统特定初始条件下的暂态观测数据并不容易,往往得到的只是该系统的稳态数据。为了解决这一问题,方案3采用脉冲激励信号,获得了系统激励响应的动态观测数据,使GRN可辨识。利用何种输入响应数据进行GRN辨识的问题,实质是非线性系统输入充分激励的问题,目前仍没有统一理论解决非线性系统输入满足何种条件能够实现充分激励。本文采用脉冲输入响应数据获得了较好的结果,为生物学家设计数据观测实验提供了指导。同时,通过对比阶跃激励信号,结果表明:脉冲激励信号的辨识效果更好。本文以三节点GRN为研究对象,对比研究了多种启发式搜索算法对具有适应性功能的变拓扑、定拓扑网络进行辨识的效果。启发式方法解决了现有穷尽搜索LHS方法中存在的效率不高、解质量不高的问题;同时,给出了不同启发式搜索算法的特点,为实际应用提供了多种选择方案;为高效辨识具有适应性的GRN提供了新的思路。提出了两个新的时间指标以更全面、精准地描述适应性,分析了适应性与参数取值范围之间的关系,得到了具有适应性GRN的参数模式,分析了不同拓扑GRN的适应性动态特性;为设计具有适应性的GRN提供了启示。以五节点S-system模型的GRN为研究对象,提出了观测数据的有效性问题,分析了观测数据的有效性对GRN可辨识性的影响,解释了采用稳态观测数据GRN不具备可辨识性的原因,并进行了数值验证,提出了保证GRN可辨识的数据获取方案。