论文部分内容阅读
从变化趋势上看,从简单的微生物到复杂的脊椎动物,基因数目是逐渐增多的。但在生物的进化过程中,新基因是从哪里而来?近年来通过哺乳动物、果蝇和水稻等物种的研究发现反转座是一种重要的新基因产生方式,但是在鱼类中,这种方式还没有被研究过。
在本研究中,我们使用鲤科模式鱼类斑马鱼作为材料,研究反转座基因在斑马鱼基因组中的分布和进化特征,以及反转座之后插入基因之后,和插入位点附近的序列形成嵌合基因的情况。我们使用31743条斑马鱼蛋白序列对基因组进行搜索,通过对比对结果的联合和过滤,我们得到了652个反转座拷贝,其中有212个含有移码突变或提前终止密码子,即反转座假基因;其余440个是完整的反转座基因。通过反转座拷贝和父基因的Ks值的分布,我们可以看到斑马鱼中反转座拷贝的产生年代都比较新。反转座拷贝的最终命运通常认为是变成没有功能的假基因,因为它们缺乏转录调控序列。但最近的研究却在人、果蝇和植物中发现了大量的表达的反转座子基因。在本研究中,我们以EST和mRNA作为标准来判断反转座拷贝的表达情况,我们发现在652个反转座拷贝中,有437个是表达的。同时结合进化分析,我们发现大多数的反转座拷贝受到了负向选择,这意味着反转座拷贝可能是有功能的。
进一步的嵌合研究发现了斑马鱼中有95个反转座拷贝形成了嵌合基因,它们或者是招募了插入位点附近的序列,或是形成了新的剪切位点,进而形成了新的含有内含子的新基因。基于鲤鱼和斑马鱼的分歧时间为5,000万年前,我们使用了38对直系同源基因来计算斑马鱼的同义突变速率,其结果为4.39×10-9替代每位点每年。基于这个结果,我们发现最近的1,000万年中,斑马鱼中形成了10个嵌合基因,这个速度是人类基因组中嵌合基因形成速度的7.14倍,是果蝇中嵌合基因形成速度的6.25倍,这个生成速率在已知的研究结果中仅次于水稻基因组中嵌合基因的形成速率。这个结果强有力的支持了反转座拷贝的表达不是随机现象,而是反转座基因有功能的一个象征。我们的结论证明了反转座这种方式在斑马鱼基因组产生了大量的新基因,这为斑马鱼基因组的进化提供了大量的原材料。
本研究第二部分是关于鲢鱼转录组学的研究。鲢鱼是中国淡水养殖鱼类中年产量次高的鱼类,每年为中国提供了大量的动物蛋白和饲料蛋白,有很高的经济价值。但是到目前为止,关于鲢鱼的基因组学数据非常的少,这对鲢鱼的研究非常不利。在本研究中,我们使用ILLUMINA公司的GAⅡ平台对鲢鱼的心、肝、脑、脾和肾的混合样品进行了从头转录组测序,一共获得了17,100,000条双末端短序列。为了提高短序列的组装结果,我们改进了前人的组装方法,在最后一步使用SSPACE软件对组装成的contig序列结合双末端序列的对应位置信息,组装得到了更长的scaffold。在使用我们的方法之后,我们获得了85,759条长度从100bp到13880bp的scaffold。
在与NCBINR库进行比对之后,我们发现其中有23,044序列对应到3,423个GO条目。为了了解组装结果参与信号通路情况,我们将所组装序列与KEGG数据库进行比对,发现38200条序列参与到218个测序的信号通路。前人的研究发现鲢鱼特异性的对微囊藻毒素的高耐受性可能与谷胱甘肽(GSH)的快速合成有关,而斑马鱼参与GSH合成通路的基因有44个,我们就想了解鲢鱼中这些基因是否受到了正向选择。于是我们使用斑马鱼中的44个基因作为索引在鲢鱼转录组中寻找双向BLAST最优结果,最后对这44对基因进行正向选择分析,结果发现5个基因受到了正向选择。本研究第一次对鲢鱼转录组进行组装和注释的研究,为鲢鱼的进化和生理功能的研究提供了基础数据;进一步它可以为近期物种形成和鲤科鱼类的比较基因组学研究提供帮助。
本研究的第三部分是关于鲢鱼基因组的从头测序,我们使用ILLUMINA公司的HiSeq2000平台对鲢鱼进行测序,对数据进行过滤之后得到覆盖度为90倍的鲢鱼基因组,其中contig序列N50达到约20kb,scaffold序列N50达到约1Mb。对基因组序列进行蛋白编码基因注释后,我们得到24571个鲢鱼蛋白编码基因。