论文部分内容阅读
可转座元件(TE)存在于几乎所有真核生物中,是许多基因组,特别是植物基因组的重要甚至主要成分。LTR反转录转座子是一类通过“复制.粘贴”模式进行转座的TE。它们的活动提供了植物基因组结构与功能进化的重要机制:已经知道,它们参与塑造基因组的组织结构与大小,影响基因的调控与变异和引起新基因的起源,同时它们还是分子生物学突变诱导的重要工具。研究LTR反转录转座子在理论和应用方面都有重大意义。随着测序技术的发展,一个迫切的问题是如何有效地从未经注释的基因组序列数据中发现LTR反转录转座子。本文首次建立起一套全基因组LTR反转录转座子注释的框架。该框架整合了从头算起,比较基因组学和同源搜索.拷贝数验证三个独立的功能模块,形成了完整的LTR反转录转座子预测流程。从头算起模块称为LTR_FINDER,该程序利用LTR反转录转座子的一般结构特征,在单个基因组上搜索满足这些特征的区域。该程序通过四步来发现一个全长LTR反转录转座子:第一步采用后缀矩阵数据结构来定位和存贮基因组中的所有精确匹配序列对;第二步以精确匹配序列对为种子,通过连接相邻种子来构造可能的LTR区域;第三步通过序列联配发现最可能的转座子边界;第四步利用LTR转座子内部的结构特征序列确认全长转座子的存在。第二个模块LTR_INSERT引入比较基因组学方法,同时分析转座子复制插入在基因组上留下的序列信号和转座子的结构特征,在两个基因组之间实现可靠的LTR反转录转座子预测。首先,LTR_INSERT构造全基因组联配并将联配分为同源区集合和增删区集合两个部分;第二步分析增删区及其邻域,发现基因组分化后插入的全长LTR转座子;第三步则分析同源区以预测分化前插入的LTR转座子。在以上两个模块的基础上,我们还发展了同源搜索.拷贝数验证模块,该模块以LTR_FINDER或LTR_INSERT的结果为输入,在全基因组上注释与之相关的LTR转座子序列。该模块实现对LTR转座子的边界修正、转座子内部非相关序列的识别和去除、多拷贝数的确认及对LTR反转录转座子分类等功能。LTR_FINDER与LTR_INSERT分别与同源搜索.拷贝数验证模块配合使用,可以分别达到对单基因组与对两个近缘物种基因组中LTR反转录转座子进行有效注释的目的。总之,三个模块分别提供结构,插入和拷贝数三项独立证据来预测LTR转座子,每一个由此流程预测的LTR转座子都有至少两项支持。随后我们将所发展的注释方法应用在水稻两个亚种基因组的比较研究中。采用比较基因组模块与同源搜索-拷贝数验证模块相结合的途径,通过构造和搜索亚洲栽培稻籼粳两个亚种的全基因组序列联配,我们共预测到993个全长LTR反转录转座子并在两个基因组中注释了15916条与之相关的拷贝;发现80个水稻LTR转座子的新家族,其中16个与目前已报道的所有家族没有任何匹配。通过对全长LTR转座子的分子进化分析,我们发现水稻两亚种之间在相当近的时期(5万3千年)内存在较大规模的跨亚种遗传物质交流,并证明这种交流是通过亚种间同源非可往复重组(ISNR)实现的。然后,我们对基因组的其它功能或非功能区域作了大规模采样以验证这一事实,并估计此类重组事件涉及占水稻基因组总量至少15.3%的区域。此外,LTR转座子还提供两重独立证据表明籼粳稻基因组的分化发生在距今60万年前。我们还研究了水稻中的LTR转座子家族的进化模式,发现如下特点:1)水稻中反转录转座子在两亚种基因组“背景”分离后仍然处于活跃状态,并且在两个基因组上的活跃程度大致相当;2)绝大部分LTR反转录复制事件是由相当少的家族完成的;3)籼粳分化事件并没有对高活性LTR家族的活动造成显著的影响;4)LTR反转录转座子在基因组上的分布是非随机的,倾向于在着丝粒附近集中。此工作第一次从比较基因组学的角度出发,在全基因组的规模上对水稻亚种间的基因流动与渗入的规模作出了估计与分析。结合从头算起模块与同源搜索-拷贝数验证模块,我们在世界上首先对豆科的模式植物蒺藜苜蓿基因组序列做了LTR反转录转座子的大规模描述和分析。在可公开使用的、约占苜蓿基因组总量近一半的序列中,我们发现526个全长LTR反转录转座子和与之相关的17421个拷贝;发现苜蓿基因组LTR反转录转座子至少可分为85个家族,其中66个为本研究首次报道。我们研究了各个家族的PBS使用偏好和内部区域蛋白质组织方式,并讨论了LTR反转录转座子的进化亲缘关系。苜蓿中的全长LTR反转录转座子主要分为Copia和Gypsy两个超家族,后者尽管在家族数量上仅为前者的1/3,但在基因组中却更为活跃。我们分析了LTR反转录转座子的复制和删除并估计了删除对基因组的影响,发现:绝大部分可见的全长转座子都是在近50万年内插入的;全长结构的半衰期为26万年,显著快于在水稻中的79万年;LTR转座子的删除曾经引起基因组中至少10Mb数量级序列被删除。我们还分析了若干特别活跃的LTR反转录转座子新家族的结构,保守性和家族复制的时空模式。这些结果表明,LTR反转录转座子的活动是苜蓿基因组进化的重要力量。最后,我们还对这些家族在同科的百脉根与大豆中的同源LTR序列作了比较研究,结果发现:1)Copia超家族比Gypsy超家族在另两个基因组上活跃得多;2)LTR反转录转座子的活动在科内看是支系高度特异的;3)它们在豆科较大基因组的尺寸进化中可能起到重要作用。总之,本研究创建了一套LTR反转录转座子全基因组注释的流程,并开发了使用LTR转座子研究近缘物种的短期进化的新方法。在水稻和蒺藜苜蓿基因组上使用这些方法获得了新的结果。在水稻中的研究使得我们在遗传物质的横向传递对驯化作物基因组的影响方面有了新的认识;同时,对蒺藜苜蓿LTR反转录转座子的分析也深化了我们对LTR转座子本身及其与宿主基因组关系的理解。