论文部分内容阅读
生物的生长发育、形态、对内外部环境的响应均受到生物内在的复杂生物网络控制。在基因层面上,基因调控网络反映了生物系统中各类元件在基因层面的相互作用关系。基因调控网络重构的研究对人们解析复杂性状的遗传构成和调控机制起到重要的作用,是系统生物学、生物信息学中极具挑战性的前沿课题。近年来,面对日益增长的粮食需求,使得从生物信息学角度出发,研究发现控制优质农艺性状的关键基因和关键性状的多基因遗传调控网络的计算方法成为该领域重要的研究课题。为此,本文以模式生物拟南芥、水稻为对象,以基因调控网络构建算法为主线,主要对候选基因识别、网络重构算法、数据方法等问题进行了深入研究。主要研究内容包括以下四个方面:第一,研究了单一时序表达谱数据中差异表达基因的识别及排序方法。当前生物数据的获取与筛选成本高昂,使用计算方法完成差异表达基因的识别与候选基因排序能有效地推动基因调控网络构建的研究。本文提出了一种基于平滑基因过滤器和样条曲线拟合的差异表达基因识别算法,并提出了一种基于伙伴评价原则的基因优先级排序策略用于候选基因的排序。首先,算法充分考虑了数据的时序特性,提出了基于Ljung-box检验的平滑基因过滤器滤除平滑基因;然后,提出了基于B样条拟合的检测器来识别统计上差异表达的候选基因;最后,提出了基于伙伴评价原则的优先级排序指标,使用共表达信息作为伙伴评价,对差异表达基因进行重新排序。新的排序能够反映特定过程或者条件下候选基因的生物学重要性。实验结果表明,本文提出的差异表达基因识别以及排序算法能够有效地识别单一时序表达数据中的差异表达基因,并按照基因的生物学重要性排序,为关键基因的发现以及调控网络的构建奠定基础。第二,研究了基于贝叶斯网络模型构建基因调控网络的候选基因自动选择算法,并进一步对其改进提出了泛洪剪枝爬山法。随着生物技术的快速发展,积累了大量的转录组数据,利用这些数据进行基因调控网络重构算法的研究成为生物信息学领域的热点与难点。基于贝叶斯网络模型构建基因调控网络因其内在的概率特性受到关注,但是目前的方法面临数据稀缺以及搜索空间复杂的问题,无法高效准确的学习网络结构。因此,本文提出了基于互信息和断点检测思想的候选基因自动选择算法CAS。CAS算法首先使用互信息度量节点之间的相关性,然后利用断点检测思想自动完成关联节点的识别,达到缩减搜索空间的目的。考虑到关联节点并不都是邻居节点,本文根据数据处理不等式原理提出了DPILevel的概念,通过对关联节点排序来区分邻居节点与非邻居节点,进一步缩减结构学习的搜索空间、降低邻居节点识别的假阳性。然后,基于DPILevel的概念提出了用于基因调控网络构建的泛洪剪枝爬山算法FPHC,加快了网络结构的学习速度。实验验证了上述算法的有效性。本文提出的算法能够高效的重构基因调控网络,为下一步进行网络结构分析识别关键基因、解析遗传构成提供生物信息学依据。第三,提出了层次聚类引导的图格兰杰因果算法用于较大规模基因调控网络构建。通过计算基因之间的因果关系快速构建较大规模的基因调控网络,对于理解生物网络结构特性以及识别候选关键节点具有重要意义。在基因间因果关系的发现上,基于格兰杰因果模型的方法受到了广泛关注。现有的基于格兰杰因果概念的方法假阳性率较高,而改进的图格兰杰因果方法不能有效的处理关联特征问题,基于生物先验知识进行分组的方法受到生物数据稀缺的限制应用场景十分有限。针对这些问题,本文提出了一种使用层次聚类改进图格兰杰因果模型的算法。首先,利用皮尔森相关系数和层次聚类原理将基因进行分组。然后采用分治的策略学习其调控因子。最后,将各分组结果进行二次预测,合并构建基因调控网络。与同类方法相比较,本文提出的方法不需要生物先验知识,获得了更准确的计算结果,能够为网络拓扑特性分析提供依据。第四,在水稻多组学数据融合方面,研究了注释稀缺物种中组织特异蛋白质相互作用网络构建方法。受限于注释数据较少,当前积累的大量水稻相关的组学数据不能很好地融合形成可利用先验知识。因此,亟需一种合理的融合多组学数据的生物信息学方法,为基因调控网络的构建提供可利用先验知识。组织特异的基因表达和蛋白质相互作用对研究基因调控、蛋白质功能、细胞过程有重要意义。本文提出了一种融合多组学数据构建组织特异蛋白质相互作用网络的方法。该方法首先确立了统一的评价标准和多表达数据集成方法进行组织特异基因识别;然后,提出了一种新的同源映射方法来构建目标物种蛋白质相互作用网络;最后,融合数据构建不同组织的蛋白质相互作用子网,并筛选高可靠的蛋白质相互作用。利用上述框架,本文构建了水稻组织特异的蛋白质相互作用网络,并对构建的网络进行了详细分析,验证了框架的有效性。预测的组织组织特异的蛋白质相互作用网络,作为预测的先验知识,能够为水稻高产性状相关关键基因发现以及多基因互作调控网络的构建提供帮助。