全基因组中网络缺失基因和微型转座子的发现及研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:aww2345
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物技术的发展,人们获得了大量的基因组数据并用以了解基因组的机制。越来越多的基因组被测序,分子生物学已进入了所谓的后基因组时代。现在我们能够直接探索基因组的一些全局特性,例如能够得到任意感兴趣基因在全基因组水平上的分布,并通过比较多种相关基因组来理解生物的各种机能等等。基因通过彼此间和代谢物间的物理和化学作用连接成复杂的网络关系,搞清楚完整的基因—蛋白质—新陈代谢网络的拓扑结构、局部组织形式和动态行为是系统生物学的最终目标。但是,现有的基因网络或者代谢途径(Pathway)还远远没有完善,许多构建的网络中存在着大量的缺失基因或者说“网络漏洞”,许多基因的功能和在网络中的具体位置还没有确定,生物网络中的许多节点和连接关系还有待于确定,这就是网络缺失基因问题。发现这些网络中的缺失基因是系统生物学中一个重要的挑战性工作。另外,具有翻转互补终端序列的微型转座子(简称微型转座子或者MITEs)是基因组中的一种重要的功能基因,它能够通过自身的位置转移、增加拷贝数等行为影响基因组的大小和基因的功能实现。在基因组水平中,发现所有的微型转座了及其分布能够让我们更加深入地了解基因组的功能实现以及进化历史。对于发现缺失基因问题和发现微型转座子问题,本文分别给出了有效的算法,能够快速准确地在全基因组水平下发现所有可能缺失基因和微型转座子。本文的主要的研究内容和创新点如下: ·主要研究内容 对于发现缺失基因问题,我们利用operon信息,基因相似性信息以及phylogenetic profile信息构造了一个基因组参考图,并利用图论算法和设计了新的信息融合和基因排序方法,在整个基因组水平下发现缺失基因。为了进一步提高方法的精度和效率,我们又利用了regulon信息:首先我们给出了一个寻找motif的有效算法,并利用该算法计算了目标基因组中的所有可能的regulon,然后将该信息运用到基因组参考图中。实验结果表明,该方法非常有效,不但在目标网络中发现了大量的相关缺失基因,进一步揭示了基因网络的结构和功能特性,极大地提高了现有基因网络的精度,而且具有极强的鲁棒性。 对于发现微型转座子问题,我们首次给出了一个在基因组范围内寻找和分析微型转座子的算法,并且实现了网络在线服务(MUST系统)http://csbll.bmb.uga.edu/ffzhou/MUST/。在许多原核生物基因组的应用试验中,我们的系统首次发现了大量的具有近期活性的微型转座子,并且该系统还首次发现了微型转座子与operon、微型转座子与相邻基因之间存在着影响关系,这些发现为揭示基因组的动态变化以及基因功能实现奠定了基础。 第一章绪论,首先给出了本文中用到的生物学,图论以及计算复杂性理论的基础知识介绍。 第二章首次给出了一个利用operon信息,基因相似性信息以及phylogeneticprofile信息来发现网络缺失基因的方法。通过比较基因组大小和进化关系,我们共选择了185个基因组来构造基因组参考图。该参考图以所有的基因为顶点,两个基因之间有边存在当且仅当它们在同一个operon中,或者它们是相似基因。对于目标pathway,我们利用其所有的已知基因作为参考基因,再寻找所有到参考基因关系最为紧密的基因来构成候选基因集合,并给出了分层的信息融合和排序的方法来确定最终的基因排序。我们测试了KEGG数据库中E.coli的所有121个pathway。结果显示如果目标pathway中已知基因的个数大于5个,该方法的正预测值(PPV)可以达到60%,并且随着基因个数的增加,可以达到90%,这一预测精度远远大于现有的相关算法,而且参数分析显示该方法具有高度的鲁棒性。同时许多预测的结果已经被近期更新的KEGG数据库的结果证实是正确的。实验结果还发现许多pathway可能在更高的结构层次上具有功能一致性,这进一步深化了pathway的结构和功能特性研究。 第三章,给出了一个寻找motif的有效算法,该算法提出了序列邻集、概率打分矩阵等新的概念,并利用递归的计算策略来去除噪音。在许多实际的生物序列的测试中,该算法能够比相关的算法更有效的发现真正的motif。 第四章,为了进一步提高发现缺失基因方法的精度,我们又引入了regulon信息。我们首先利用第三章中发现motif的算法描述了目标基因组中所有的regulon结构,然后将此信息融合到第二章中的基因组参考图中。试验显示,regulon信息进一步提高了寻找缺失基因算法的精度,对于所有基因个数大于20的pathway,平均的PPV率进一步提高了约2%。 第五章首次给出了一个全基因组水平下发现所有可能微型转座子的算法,并且实现了在线服务(MUST系统)http://csbll.bmb.uga.edu/ffzhou/MUST/。该算法可以按照微型转座子的结构和序列相似性进行分类,同时输出许多相关统计和进化信息。应用MUST系统,我们成功地在AnabaenavariabilisATCC29413验证了已经被深入研究的微型转座子族Nezha,同时还发现了新的具有近期活性的微型转座子。另外,我们首次在HaloquadratumwalsbyiDSM16790中发现了多个微型转座子族,这些微型转座子族均具有保守的终端结构和高度的序列相似性,并且发现了近期活性的进化痕迹。HaloquadratumwalsbyiDSM16790是一种极端耐盐的细菌。这是首次在此极端细菌中发现微型转座子,这些大量微型转座子族的存在进一步揭示了微型转座子可能参与到极其重要的基因组功能活动中,并且这种活动甚至在极端环境下生存的物种中依然比较活跃。 第六章首次在Leptospira中发现了微型转座予Yuanxiao,该微型转座了大量存在于Leptospira的四个近缘物种中。Leptospira是一种病原体,可以导致一种称为钩端螺旋体病的人畜传染病。我们研究发现微型转座子Yuanxiao与转座基因ISLin1之间存在着进化关系,说明微型转座子可能是通过删除转座基因中的编码蛋白区域而进化得到的。研究表明该微型转座子还可能参与到相邻基因的调控过程中,这为研究微型转座了的生成,扩增以及转移机制提供了很好的研究基础。同时,也在基因层面上为解释该治病体的基因表达及功能变化提供了新的思路。 第七章首次在GeobacteruraniireducensRf4中发现了具有近期活性的微型转座子Chunjie,首次观察到Chunjie能够插入到operon结构中,并且没有破坏operon的结构。这进一步揭示了微型转座子的转移特性,并首次揭示了微型转座子对operon结构的进化影响关系。 最后一章总结全文。 ·本文的创新点 创新点1.首次利用三种信息给出了在全基因组水平下发现网络缺失基因的方法,利用多基因组的比较在最大程度上发现目标网络中的缺失基因。方法具有高精度和高鲁棒性,极大地提高了目前相关方法的精度和结果。对于E.coli的121个目标pathway,该方法发现了大量的缺失基因,同时还在pathway内部和pathway之间发现了新的结构连接,为进一步研究基因网络的功能和结构特性奠定了基础。 创新点1列于第二章中。 创新点2.提出了一个新的寻找转录因子motif的有效算法,并用之计算了目标基因组中所有的regulon结构,并且将regulon结构信息融合到寻找网络缺失基因的方法中,进一步提高了寻找网络缺失基因方法的精度。 创新点2列于第三、四章中。 创新点3.首次给出了在全基因组水平下寻找和分析微型转座子的方法,并实现了在线服务(MUST系统)。对于给定的基因组,该系统能够发现所有可能的微型转座子并给出许多相关特性的分析。利用该系统,我们首次观察到HaloquadratumwalsbyiDSM16790中存在着大量的微型转座子族。这个现象首次揭示了微型转座子在极端微生物(耐盐)中依然活跃并且发挥着重要的作用。 创新点3列于第五章中。 创新点4.首次在Leptospira中发现了一个具有近期活性的微型转座子族Yuanxiao。并发现该微型转座子和某些特定的转座基因之间存在着结构和序列相似性,同时还可能在相邻基因的转录调控中发挥作用。Yuanxiao的发现为进一步研究微型转座子的产生、扩增、转移机制提供了样本,同时也为揭示Leptospira的致病机理提供新的思路。 创新点4列于第六章中。 创新点5.首次在GeobacteruraniireducensRf4中发现了一个具有近期活性的微型转座子族Chunjie,并且发现Chunjie成功地插入到了一个operon结构中。这是首次发现微型转座子插入到operon结构中而没有破坏operon结构和功能,为研究原核生物基因组变化,特别是operon进化提供了直接的证据。 创新点5列于第7章中。
其他文献
本文提出了若干新概念,研究了概率度量空间中非线性算子方程的解、非线性算子方程组的公共解、紧连续算子的固有值和固有元.用概率度量空间中的拓扑度方法、迭代方法推广了一
本文考虑了经典风险模型和索赔次数为Pólya-Aeppli过程的风险模型的有关问题.索赔次数为Pólya-Aeppli过程的风险模型简称为Pólya-Aeppli风险模型(此模型在国内又称为索赔
本文研究了几类变换半群的正则性及格林关系,共分三章,各章内容如下: 第一章主要研究了非空有限全序集X上的保E-O部分变换半群PEOPx的正则性、格林关系、正则元的格林关系,并
近年来,特征列方法被成功地用于机器证明、力学、理论物理等跨学科研究以及机器人、机构学、计算机视觉、CAD等高科技领域。Lie对称法的研究在包括现代数学,物理和力学在内的众