论文部分内容阅读
随着DNA测序技术的不断发展,基于转录组的组装分析来进行生物的代谢、系统发育等研究展现了独特的优势。对无参考基因组的非模式生物来说,转录组测序分析是获得其基因表达信息的重要手段。本文对葛氏长臂虾(Palaemon gravieri)、九齿扇虾(Ibacus novemdentatus Gibbes)和普通黄道蟹(Cancer pagurus)三种十足目生物的转录组数据进行测序和组装,并进行功能注释,相关研究的结果可为3个物种的功能基因研究和系统发育研究提供基础数据。论文的主要成果如下:对葛氏长臂虾的鳃组织、肌肉组织进行转录组测序后得到404,65,590条原始序列及去除杂质之后获得的40,282,258条高质量序列(Clean Data),数据量为6.04G。对获得的高质量序列进行组装得到了大量转录本,进一步的去冗余组装获得15,089条非冗余基因,其N50值为1909 bp。将去冗余组装获得的非冗余基因通过blastx比对,进行了Nr、Nt、Pfam、KOG/COG、Swiss-prot、KEGG、GO几大数据库的基因功能注释,有8593个Unigene得到了注释,注释率为56.95%。GO功能注释到生物过程、细胞组分和分子功能三大类,其中生物过程中的细胞转化、代谢过程和单生物过程的Unigene被注释最多,分别有3488、3083、2704条;细胞组分中注释到细胞部分、细胞、细胞器的Unigene最多,分别为2116、2116、1491条;分子功能中的Unigene注释最多的是结合功能与催化活性,分别为3555、2562条。同时,我们发现在KEGG代谢通路分析中,注释到内分泌系统、免疫系统、代谢途径等通路的Unigene最多。此外,我们还发现了6008个微卫星标记。对九齿扇虾的肝、肌肉组织进行转录组测序后得到7.22Gb的高质量序列(Clean Data),GC含量为44.81%。对获得的高质量序列进行组装,得到的转录本进一步的去冗余组装后获得100,014条Unigenes,N50为980bp。将非冗余基因通过blastx比对,进行Nr、Nt、Pfam、KOG/COG、Swiss-prot、KEGG、GO几大数据库的基因功能注释,有24,561个Unigene得到了注释,注释率为24.56%。GO功能注释到的三大类中,细胞组分获得的注释基因最多,共有19,174条Unigene,占全部注释信息的38.69%,其中细胞、细胞部分和细胞器被注释的Unigene最多,分别为4096、4091和2678条;生物过程中注释到细胞转化、代谢过程和单生物过程的Unigene最多,分别为4914、4546、2971条;分子功能中被注释最多的是结合功能和催化活性两种,被注释的Unigene数量分别为4710、4699条。KEGG通路的分析发现,注释到核糖体、氧化磷酸化作用、内质网蛋白加工、RNA转运、碳代谢等通路的Unigene最多。同时我们在九齿扇虾转录组中发现了微卫星标记10,114个。对普通黄道蟹的肝脏、性腺和鳃组织进行转录组测序后得到6.77Gb的高质量序列(Clean Data),GC含量为40.47%。对获得的高质量序列进行组装得到了大量转录本,进一步的去冗余组装后获得65,725条Unigenes,N50为980bp。将非冗余基因通过blastx比对,进行Nr、Nt、Pfam、KOG/COG、Swiss-prot、KEGG、GO几大数据库的基因功能注释,有19,216个Unigene得到了注释,注释率为29.24%。GO注释到生物过程、细胞组分和分子功能三大类,其中生物过程的细胞转化、代谢过程和单生物过程被注释到的Unigene比较多,分别有3295、2928、1947条;细胞组分中注释到细胞部分、细胞和膜的Unigene比较多,分别为2541、2529和2032条;分子功能中的Unigene注释最多的是结合功能与催化活性,分别为3368、2562条。在KEGG通路中,注释到核糖体、氧化磷酸化作用、内质网蛋白加工、RNA转运、碳代谢等通路的Unigene最多。另外,在该物种转录组中发现了微卫星标记7808个。最后,本研究对上述三种虾蟹类和7种对虾类的系统进化关系进行了研究,经过转录组组装、ORF预测之后,利用OrthoMCL对基因家族进行聚类,获得160,790个基因聚类,最终筛选出83个直系同源单拷贝基因,构建了分子系统进化树,探讨了10个物种间的系统进化关系。