论文部分内容阅读
转座元件(Transposable element,TE)是生物基因组中能移动的一类DNA序列,对基因的进化和基因组的稳定具有重要影响,LTR反转录转座子是其中最为丰富的一类。茶树中反转录转座子家族约占基因组的67.21%,是茶树基因组庞大的重要原因,但其相关研究却不充分,落后于其他物种。本研究借助已公开的茶树基因组数据,在全基因组规模上对茶树转座子进行挖掘、鉴定、分类和注释,并对其特征进行分析,在此基础上搭建茶树转座子数据库,同时,分离茶树不同类型的反转录转座子RT序列,开发建立基于反转录转座子的IRAP标记体系,并应用于国内主要无性系品种的遗传多样性分析,探索IRAP标记在茶树种质资源的研究上的可行性。主要研究结果如下:1.茶树转座子的全基因组鉴定。综合运用从头(Denovo)鉴定、基于同源性鉴定和基于结构特征鉴定三种方法,对茶树基因组转座子进行系统的鉴定、分类和注释。在茶树基因组当中鉴定到有45125个转座子序列,并根据wicker提出的80-80-80 rule将其分为12个超家族和1117个家族。2.茶树转座子数据库的构建。基于上述鉴定到的转座子序列,构建了茶树转座子数据库(CsTEdb,http://genedenovoweb.ticp.net:81/CSTEdb/index.php),为用户提供浏览、搜索、查询和比对等服务。相较于已有的茶树综合信息数据库,CsTEdb专注于茶树转座子信息,提供更精确、更全面的茶树转座子信息,并整合转座子相关分析工具,为茶树转座子相关研究提供基础。3.茶树转座子的特征分析。(1)基因组注释。利用RepeatMasker对茶树全基因组(3.1G)进行注释,有2.59GB的序列注释为转座子相关序列,占茶树基因组的83.55%,其中LTR反转录转座子所占比例最高,占茶树总基因组的77.78%,与众多已测序物种中转座子分布规律一致。(2)转座子的分布。选取scaffold N50以上的scaffold序列693个进行分析,结果表明转座子与基因的分布呈显著负相关,基因分布较少的区域内转座子分布比较集中,富含基因的区域内转座子反而分布较少。(3)转座子和基因表达的相关性。基因有表达活性的标准为在茶树转录组测序的8个组织中至少一个组织里基因RPKM值大于等于1。以此标准进行分析发现在693个scaffolds中具有转录活性的基因占82.24%(15183/18461),转座子和有表达活性基因之间也呈现负相关。(4)转座子相关基因GO功能注释与KEGG pathway分析。结果表明这些基因参与的生物学过程集中在 metabolic process、cellular process、single-organism process,在细胞组分中集中在cell membrane、organelle;在分子功能集中在binding和catalytic activity。Pathway分析显示转座子相关基因参与了 132个代谢通路,进一步说明转座子在茶树多个生物学过程中发挥重要作用。(5)全长LTR转座子的鉴定及系统进化分析。选取一个典型的、结构完整的LTR转座子CsRE1进行特征分析。CsRE1全长17597bp,包含两端LTR、PBS、PPT及转座所需的5种酶,属于Ty3-gypsy家族成员,插入茶树基因组中的时间约为84.1万年,是一个较年轻的转座子,可能具有潜在的转座活性。LTR区包含多个响应干旱、低温、ABA等的调控元件,内部各结构域与其他物种已知的反转录转座子有较高的同源性。(6)Nested-LTR的鉴定及分析。对各LTR反转录转座子的相对位置关系进行分析,发现有87.84%的LTR反转录转座子序列形成了复杂的Nested-LTR,覆盖了茶树基因组的39.97%,这些Nested-LTR多级嵌套,对宿主基因组的扩增、进化等具有重要的影响。4.茶树反转录转座子RT序列的克隆及特征分析。利用简并引物在茶树中扩增分离了 Tyl-copia类、Ty3-gypsy类、LINE类三种不同类型反转录转座子的RT序列,序列长度分别为260-267bp、417-433bp、526-593bp,各类RT序列高度异质,均有不同程度的移码突变、终止密码子突变等,但又保留各自的氨基酸保守区。与不同来源的RT序列构建系统发育进化树发现,茶树反转录转座子RT序列在进化上与一些相近属种甚至远缘属种进化关系密切,推测可能是在进化过程中除了纵向传递,还发生了横向传递的结果。5.茶树IRAP标记体系建立及遗传多样性分析。基于前期分离的RT序列和LTR序列设计特异引物,建立茶树IRAP技术体系,并应用该体系对32个茶树优良无性系品种进行遗传多样性分析。15条引物在32个样品中共检测出了多态位点179个,多态百分数为89.05%,平均有效等位基因数(Ne)1.4523,平均Nei’s基因多样性指数(H)0.2717,平均Shannon信息指数(Ⅰ)0.4165,各茶区遗传多样性水平依次为华南>江南>西南>江北;根据遗传相似性系数GS,利用UPGMA法将32份茶树品种聚类为5个类群(0.7195为阈值),聚类结果显示来自同一茶区的大部分品种因其较近的地理位置往往聚为一类,地理来源不同但遗传背景相似的茶树品种也聚在一起,与已有报道一致,初步验证IRAP标记在茶树遗传多样性分析上具有可行性。