论文部分内容阅读
长末端反转座子(LTR-RT)是植物基因组中数量最多、比例最大的一类转座子,通常富集于染色体的异染色质区。植物基因组中LTR-RT拷贝数量、结构及活性在不同物种甚至近缘物种中均存在明显差异,因此LTR-RT可以用来开发多种分子标记,进行品种鉴定及遗传多样性研究。另外,通过计算直系同源LTR-RT插入基因组的时间,我们还可以对近缘物种间的进化历史事件进行研究。本论文主要通过生物信息学方法对东方梨(‘砀山酥梨’)基因组中LTR-RT进行注释分析研究,包括家族、谱系及超家族分析,构建梨基因组LTR-RT数据库,同时分析LTR-RT的染色体分布、插入时间及进化特征,探索具有新结构类型的LTR-RT,通过直系同源LTR-RT和单拷贝基因的进化速率对东方梨与西洋梨(’巴梨’)的分化时间进行推算。另外,本研究公布的梨全基因组LTR-RT序列还将为梨种质资源遗传多样性分析及梨种质间进化历史研究奠定基础。主要研究结果分述如下:1.东方梨基因组中LTR-RTs的注释分析通过对东方梨基因组进行注释,我们共发现7247个具有清晰边界的LTR-RT,包括3221个(44.4%)含有TSD位点的完整LTR-RT序列(IT),578个(8.0%)不含TSD位点的完整序列(InT),2896个(40.0%)含有TSD位点的solo LTRs(ST)及552个(7.6%)不含TSD位点的solo LTRs(SnT),根据“80-80-80”的分类原则,这些LTR-RTs可以归类为148个家族,其中115家族属于Copia超家族,21个属于Gypsy超家族,9个属于TRIM超家族,另外3个属于LARD超家族。其中拷贝数最多的是Pbr148,属于TRIM超家族的Cassandra家族,共有2411个拷贝(仅包含完整元件和solo LTR)。另外我们发现约90%的LTR-RT在梨染色体上都符合随机分布规律,Copia超家族中Maximus谱系在蔷薇科物种中丢失。进一步分析表明不同超家族及家族之间的LTR-RT的扩增时间范围差异很大,比如Copia-like超家族是近期最活跃的,且在近1百万年内有一个扩增高峰。2.Cassandra家族在5个蔷薇科物种中的比较分析Cassandra反转座子属于LTR-RT中微末端重复反转座子(TRIM)超家族。有研究报道Cassandra反转座子几乎存在于所有的维管植物中,本研究发现Cassandra反转座子是梨基因组中拷贝数最多的家族,因此我们结合其他四个已经完成测序的蔷薇科物种(苹果、桃、梅花和野生草莓)基因组数据对Cassandra反转座子的数量、染色体分布、插入时间分布和进化特征进行了比较基因组分析。关于Cassandra反转座子我们有了以下几个新的发现:1)大量的完整转座子(intactelements)含有3个、4个或5个长末端重复序列(LTRs),其中梨基因组中数量最多,约占20%;2)每个基因组中含有TSD位点(80%)和不含TSD位点(20%)的完整转座子与solo LTRs数量都很多;3)Cassandra反转座子在染色体上呈随机分布特征;4)梨基因组中拷贝数最多,共5032个(包括可鉴别的残缺Cassandra);5)不同物种间Cassandra反转座子在进化过程中展现出复杂的进化关系。这些结果都表明Cassandra反转座子包含了许多之前我们没有发现的复杂结构,大量的Cassandra拥有多个LTRs,我们推测Cassandra反转座子间发生频繁的不平衡重组及随后的复制转移机制可能在基因组进化的过程中起到至关重要的作用。3.东方梨与西洋梨之间的分化历史事件利用从东方梨基因组中注释到的6117个含有TSD位点的完整LTR-RT和solo LTR,对西洋梨基因组进行同源搜索,共找到1194个(19.5%)直系同源LTR-RT,其中包括656个(20.4%)完整LTR-RT和538个(18.6%)solo LTR。另外我们还对两个梨基因组及二者分别与拟南芥基因组中的直系同源单拷贝基因进行了分析,发现两个梨基因组之间共有774个直系同源单拷贝基因,而二者与拟南芥基因组之间共存在299个直系同源单拷贝基因。通过对直系同源单拷贝LTR-RT的两个LTR序列的碱基替换速率及直系同源单拷贝基因的同义和非同义突变率的比较分析,我们推测两个梨基因组的分化时间约为0.77-1.66百万年之间,且二者分化后的进化速度没有明显差异。同时,我们的研究结果还证实了 LTR-RT的突变速率约是编码基因的两倍。总之,本研究首次从比较基因组学的角度利用梨基因组的LTR-RT重复序列与基因序列信息从全基因组范围内阐明了东西方两个重要梨栽培种之间的进化关系,这将有助于不同梨种质间遗传多样性研究,并为揭示东西方梨之间的进化历程奠定基础。