基于多基因互作信息的生物网络构建算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:jxj198711
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物的生长发育、形态、对内外部环境的响应均受到生物内在的复杂生物网络控制。在基因层面上,基因调控网络反映了生物系统中各类元件在基因层面的相互作用关系。基因调控网络重构的研究对人们解析复杂性状的遗传构成和调控机制起到重要的作用,是系统生物学、生物信息学中极具挑战性的前沿课题。近年来,面对日益增长的粮食需求,使得从生物信息学角度出发,研究发现控制优质农艺性状的关键基因和关键性状的多基因遗传调控网络的计算方法成为该领域重要的研究课题。为此,本文以模式生物拟南芥、水稻为对象,以基因调控网络构建算法为主线,主要对候选基因识别、网络重构算法、数据方法等问题进行了深入研究。主要研究内容包括以下四个方面:第一,研究了单一时序表达谱数据中差异表达基因的识别及排序方法。当前生物数据的获取与筛选成本高昂,使用计算方法完成差异表达基因的识别与候选基因排序能有效地推动基因调控网络构建的研究。本文提出了一种基于平滑基因过滤器和样条曲线拟合的差异表达基因识别算法,并提出了一种基于伙伴评价原则的基因优先级排序策略用于候选基因的排序。首先,算法充分考虑了数据的时序特性,提出了基于Ljung-box检验的平滑基因过滤器滤除平滑基因;然后,提出了基于B样条拟合的检测器来识别统计上差异表达的候选基因;最后,提出了基于伙伴评价原则的优先级排序指标,使用共表达信息作为伙伴评价,对差异表达基因进行重新排序。新的排序能够反映特定过程或者条件下候选基因的生物学重要性。实验结果表明,本文提出的差异表达基因识别以及排序算法能够有效地识别单一时序表达数据中的差异表达基因,并按照基因的生物学重要性排序,为关键基因的发现以及调控网络的构建奠定基础。第二,研究了基于贝叶斯网络模型构建基因调控网络的候选基因自动选择算法,并进一步对其改进提出了泛洪剪枝爬山法。随着生物技术的快速发展,积累了大量的转录组数据,利用这些数据进行基因调控网络重构算法的研究成为生物信息学领域的热点与难点。基于贝叶斯网络模型构建基因调控网络因其内在的概率特性受到关注,但是目前的方法面临数据稀缺以及搜索空间复杂的问题,无法高效准确的学习网络结构。因此,本文提出了基于互信息和断点检测思想的候选基因自动选择算法CAS。CAS算法首先使用互信息度量节点之间的相关性,然后利用断点检测思想自动完成关联节点的识别,达到缩减搜索空间的目的。考虑到关联节点并不都是邻居节点,本文根据数据处理不等式原理提出了DPILevel的概念,通过对关联节点排序来区分邻居节点与非邻居节点,进一步缩减结构学习的搜索空间、降低邻居节点识别的假阳性。然后,基于DPILevel的概念提出了用于基因调控网络构建的泛洪剪枝爬山算法FPHC,加快了网络结构的学习速度。实验验证了上述算法的有效性。本文提出的算法能够高效的重构基因调控网络,为下一步进行网络结构分析识别关键基因、解析遗传构成提供生物信息学依据。第三,提出了层次聚类引导的图格兰杰因果算法用于较大规模基因调控网络构建。通过计算基因之间的因果关系快速构建较大规模的基因调控网络,对于理解生物网络结构特性以及识别候选关键节点具有重要意义。在基因间因果关系的发现上,基于格兰杰因果模型的方法受到了广泛关注。现有的基于格兰杰因果概念的方法假阳性率较高,而改进的图格兰杰因果方法不能有效的处理关联特征问题,基于生物先验知识进行分组的方法受到生物数据稀缺的限制应用场景十分有限。针对这些问题,本文提出了一种使用层次聚类改进图格兰杰因果模型的算法。首先,利用皮尔森相关系数和层次聚类原理将基因进行分组。然后采用分治的策略学习其调控因子。最后,将各分组结果进行二次预测,合并构建基因调控网络。与同类方法相比较,本文提出的方法不需要生物先验知识,获得了更准确的计算结果,能够为网络拓扑特性分析提供依据。第四,在水稻多组学数据融合方面,研究了注释稀缺物种中组织特异蛋白质相互作用网络构建方法。受限于注释数据较少,当前积累的大量水稻相关的组学数据不能很好地融合形成可利用先验知识。因此,亟需一种合理的融合多组学数据的生物信息学方法,为基因调控网络的构建提供可利用先验知识。组织特异的基因表达和蛋白质相互作用对研究基因调控、蛋白质功能、细胞过程有重要意义。本文提出了一种融合多组学数据构建组织特异蛋白质相互作用网络的方法。该方法首先确立了统一的评价标准和多表达数据集成方法进行组织特异基因识别;然后,提出了一种新的同源映射方法来构建目标物种蛋白质相互作用网络;最后,融合数据构建不同组织的蛋白质相互作用子网,并筛选高可靠的蛋白质相互作用。利用上述框架,本文构建了水稻组织特异的蛋白质相互作用网络,并对构建的网络进行了详细分析,验证了框架的有效性。预测的组织组织特异的蛋白质相互作用网络,作为预测的先验知识,能够为水稻高产性状相关关键基因发现以及多基因互作调控网络的构建提供帮助。
其他文献
目的:研究鸢尾科植物六棱鸢尾(Iris hexagona Walter)地下部分的化学成分。方法:利用硅胶柱色谱和凝胶柱色谱进行分离,根据理化鉴别方法及光谱数据鉴定所得化合物的结构。结
本文运用文献资料法、问卷调查法、访谈法、数理统计法等方法,以宿州学院体育学院2009、2010级武术专修生为研究对象,了解宿州学院武术专修生在训练中经常因为场地设备不完善
情景法从二十世纪二十年代开始就被英国的研究学者推广运用,如今,已经广泛运用到对外汉语教学当中。目前,关于对外汉语词汇的教学方法层出不穷。情景法是一种生动且灵活的教
当前的生态失衡问题使人们越来越认识到自然环境和自然资源对人类生存和发展的重要性,随着绿色思想的形成,低碳经济观念的提出和发展,企业不得不正视环境和资源的压力和困扰,
目的:观察版纳近交系小耳猪骨形成蛋白的成骨活性.方法:用Urist方法从版纳小耳猪骨和普通猪骨中提取骨形成蛋白,SDS-PAGE凝胶电泳测定小耳猪BMP的相对分子量.将剂量为2mg、5m
一、《规定》制定的背景和意义证据问题历来是民事诉讼的核心问题,它与诉讼的实体内容直接相关,对当事人的诉讼活动和人民法院的审判活动都有着十分重要的意义。对当事人而言,其
为了提高无人值守变电站监控的智能化水平,如何有效利用现有已建的视频监控系统,采用图像智能化分析技术实现对变电站智能化水平的提升,是目前无人值守智能变电站建设的重要
蜢虾酱作为一种高盐分的发酵制品是一种常见的调味品,但是在微生物发酵过程中受细菌作用,蜢虾中蛋白质降解为氨基酸后,发生脱羧反应,产生不同种的生物胺,过量会影响蜢虾酱的
《宝贤堂集古法贴》是山西历史上明亚藩集刻的一部大型丛贴,在中国贴学史上占有重要地位,其明拓本传世稀少。该文通过与其它藏本的比较,证明山西大学图书馆所藏明拓本是现存拓本
近日,国内首款红色手机网络游戏“延安英雄传”在西安正式上线运营。该手机游戏以中国共产党在延安领导人民抗击日寇侵略为背景,通过手机联网游戏的形式,讲述了人民军队的发展壮
报纸