论文部分内容阅读
半滑舌鳎和牙鲆是我国重要的水产养殖品种。这两种鲆鲽鱼雌雄个体的体型和生长速度差异极大,是研究性二态性的理想模型。之前的研究主要集中在遗传标记开发、遗传图谱构建、生长及免疫相关功能基因克隆和性别决定与分化机制等,基因序列信息比较匮乏,到目前为止,NCBI数据库中关于这两种鲆鲽鱼类的EST序列分别只有10,128条和16,275条。近些年来迅速发展的高通量测序技术使得对非模式生物组学水平的研究成为可能。本文利用454焦磷酸测序技术和Illumina测序技术分别对半滑舌鳎和牙鲆进行了转录组测序,并进行了初步分析。1)半滑舌鳎使用454焦磷酸测序技术对6个半滑舌鳎10种组织进行了一个run的测序,总共得到约75万的读序,平均长度为235bp。经过数据预处理后,得到了超过58万的读序,平均长度为206bp,占原始数据的77.9%。使用Newbler对读序进行组装,得到62,632个isotigs,以及未参与组装的98,262个读序作为singlet,将二者聚类得到150,039个序列,作为unigene。isotigs长度范围为100-1,665bp,平均长度为272bp,N50为303bp。isotigs的平均测序深度为10.2。通过利用Blastx与公共蛋白数据库比对,注释了26,569个unigene,占总数的17.7%。在这些注释的序列中,只有349个序列是由已知的鲽形目信息注释的,这说明了公共数据库中鲽形目信息的匮乏。基因语义学(Gene Ontology,GO)分析则为3,451个序列注释了17,113个GO词条,其中1,921个序列被注释为细胞组分,3,020个为分子功能,2,561个为生物学途径。KEGG通路分析将2,362个序列富集到186个不同的通路中。通过与RepBase数据库比对,发现1,898个序列中可能存在转座元件,其中包括904个逆转录因子和994个DNA转座子。出现频率最高的逆转录因子是Gypsy(266,29.4%),其次是Jockey(151,16.7%)和Copia(104,11.5%),而在DNA转座子中出现频率最高的依次为CACTA(248,24.9%)、hAT(131,13.2%)和Tcl-Mariner(124,12.5%)。通过筛查序列中可能存在的分子标记,发现了7,869个潜在的微卫星标记、21,234个SNP以及13,370个插入缺失。在所有的微卫星标记中,双碱基重复最多,占64.3%,其次是三碱基重复(31.1%)和四碱基重复(3.5%)。按重复基序来分,AC重复为最常见的重复类型,占20.2%。在三碱基重复和四碱基重复中最常见的分别是CAG重复和AAAC重复。在所有SNP中,包括14,333个转换和6,901个颠换。SNP包括插入缺失平均每491bp出现一次。2)牙鲆利用Solexa RNA-Seq技术对一个双单倍体牙鲆个体进行了转录组测序,获得了超过2,700万的90bp双末端读序。数据预处理后,得到2,400万平均长度为75bp的读序。使用SOAPdenovo和Trinity两种软件对读序进行了拼接。SOAPdenovo软件产生了119,370个scaffold,长度范围为150-9,339bp,平均长度为469bp,总碱基数为56M,其中有11,232个scaffold的长度超过了1kb;Trinity软件产生了97,460个contig,长度范围为201-10,284bp,平均长度为643bp,总碱基数为62.6M,其中有16,211个contig的长度超过了1kb。最终,利用聚类的方法将两组结果合并,得到107,318个非冗余的序列集,平均长度为646bp,总碱基数为69.4M。采用几种不同的方法对组装的序列进行注释。通过Blastx比对,将近一半(51,563,48.1%)的序列获得了注释。GO分析将17,833个序列注释为37,541个GO词条。KEGG分析将7,811个序列富集到310个不同的通路中。经过Blastx注释的序列,其蛋白编码框被预测出来;对于未经注释的序列,利用ESTScan软件预测了5,516个unigene的蛋白编码框。与RepBase数据库的比对发现11,021个unigene中可能存在转座元件,其中包括5,380个逆转录因子和5,641个DNA转座子。Trinity软件分析可变剪切的结果显示,6,941个unigene或许存在可变剪切。从中随机挑选10个,通过克隆测序验证,其中4个确实存在可变剪切。利用双单倍体具有两套完全一致基因组的特点,进行了基因加倍的分析。其中,1,859个unigene代表了牙鲆基因组中具有多个拷贝的基因。