论文部分内容阅读
具有特定生物学功能的新基因对所有生物都是一种重要的进化优势。新基因除了可以在基因组中已有遗传物质的基础上通过缓慢演化而产生,也可以直接在不同物种之间发生横向流动,即水平基因转移。水平基因转移在原核生物快速进化中发挥的重要作用已经得到广泛认可。但对于多细胞真核生物而言,它们巨大且复杂的基因组使得分析流程变得极为繁琐且低效,导致相关的研究非常滞后。水生动物的生活环境及一些生物学特性可能有利于它们之间发生水平基因转移,因此系统的对水生动物中的水平基因转移情况进行研究有利于阐明真核生物中水平基因转移的具体机制及普遍规律,也会加深人们对遗传资源本质的理解。由于真核生物中普遍存在大量的转座子,而这些转座子具有一定的自主性,它们的水平转移机制可能与单拷贝基因有所不同,所以对这两类遗传物质的水平转移分别进行了研究。一转座子的水平转移以凡纳滨对虾为核心物种,以一个高通量测序的拼接结果为核心数据集,通过基于多重本地/在线blast的相似性搜索、进化分析及表达分析研究了它的转录组中的转座子转录本,这些转录本参与水平转移的情况及它们可能的生物学功能,结果如下:1.从56608条凡纳滨对虾转录本中鉴定出了395条高度可信的转座子转录本,它们中的绝大多数都是逆转录转座子的转录本。157条转座子的转录本表现出与远缘物种更高的相似度,这些远缘物种主要是辐鳍鱼类、贝类和寄生生物;这157条转录本中有83条可以确定来自于已知的凡纳滨对虾转座子家族,对应的转座子家族一共是16个。2.上述的16个对虾转座子家族有10个已经被注释了编码区,因此用它们的蛋白序列与对应的高相似同源序列进行了进化分析。结果表明它们在进化树上的近邻多数情况下都是水生动物序列,而且其他水生动物的序列之间也容易聚在一起,尽管它们之间的亲缘关系非常远。3.通过与凡纳滨对虾早期发育阶段和WSSV病毒重组VP28蛋白刺激下的转录组测序原始数据进行短片断比对,发现涉及水平转移的转录本有可能在抗病毒免疫中发挥了重要作用,确切的说,它们可能是抗病毒免疫的抑制因子。二单拷贝基因的水平转移为了处理更大规模的数据,首先开发了一种基于TF-IDF(词频-逆文本频率指数)的水平转移基因判断方法。以27个分类跨度很大的物种的Uni Gene序列为核心数据集,用新开发的方法对这些物种中的水平转移序列进行了初步筛选,并对这些候选序列用传统的基于相似性搜索及进化分析的方法进行了严格验证,结果如下:1.首先从21个物种的4048个同源基因group中,使用合适的阈值,得到了20257个高度保守的基因片断,长度范围是3-40 nt,其中数量最多的8 nt和11 nt的片断,这些保守片断被类比为文本中的“词”。这些词的分布曲线部分符合齐夫定律,而那些不符合的部分,由于TF或IDF过低,其综合权重都很低。为了查找这些长度不同的词在序列中的出现次数,开发了一种动态规划查找算法,并用Python及C语言加以实现。2.构造了一个基于TF-IDF的度量Dis,用来表征一条序列的特征值与该物种中所有序列平均特征值的距离。通过对序列参考不同物种得出的Dis进行比较,可以直接判断出哪些序列与自身物种的序列平均特征值差距大,而与其他物种的序列平均特征值差距小。采用这种方法,从13个物种判断出了585条潜在的水平转移序列,这些序列集中出现在淡水涡虫、日本血吸虫、猫头鹰帽贝和肩突硬蜱中。潜在的基因供体物种也比较集中,主要是大西洋鲑、斑马鱼和安乐蜥。3.通过相似性搜索等进一步的严格验证,从上述的585条序列中得到了63条更加可信的水平转移序列,其中39条来自淡水涡虫。这63条序列在众多物种中存在高度相似的同源序列,尤其是后口动物,但进化分析却表明,它们的近邻通常都是远缘的水生动物,与用Dis预测的结果高度一致。这63条序列代表了一系列的基因,包括编码核糖体蛋白,细胞骨架蛋白及能量代谢相关蛋白的众多基因,它们多数都是组成性表达的管家基因。本研究的结果表明:无论是转座子还是单拷贝基因,在水生动物之间,特别是生态位相近的水生动物之间都易于发生水平转移。由于水生动物普遍通过体外受精繁育后代,这可能就使得环境中的DNA容易在生殖细胞或胚胎阶段进入它们的细胞并整合进基因组,进而造成相比陆生生物更高的水平基因转移频率。检测出的水平转移单拷贝基因多数都在真核生物中普遍存在,这些基因的转移只是对已有基因进行了替换,却不会引入新功能;而转座子除非进化成为新基因,否则它们的功能通常都是只利己的。因此总体而言,真核生物之间的水平转移在功能上可能是以中性为主。