论文部分内容阅读
柴胡(Bupleuri radix)为伞形科(Umbelliferae)柴胡属(Buplerum)多年生草本植物。为了更为深入地研究柴胡转录组信息,本研究应用高通量测序技术对柴胡的转录组进行了研究,并进行了数据的全面分析。该分析结果将会极大的丰富柴胡转录组数据资源,也将为柴胡生物学性状和分子机理的研究打下坚实的基础。以下是获得的主要结果:1.本试验采用Illumina HiSeqTM 2500高通量测序技术对采自山西运城规范化种植基地的柴胡进行了转录组测序,获得了6.52 Gb clean data,经de novo组装后,得到59,288条Unigene,总长度43,219,695 nt,平均长度728.98 nt,其中长度在1 kb以上的Unigene有13,680条。2.经基因的表达注释分析,共获得35,018条Unigene的注释结果。其中,注释到KEGG pathway数据库的Unigene有7,979条;注释到SWISS-PROT数据库的Unigene有23,707条;注释到Gene Ontology数据库的Unigene有26,513条;注释到COG数据库的Uinigene有11,000条;注释到NR数据库的Unigene有34,878条,该测序结果极大的丰富了柴胡的转录组信息。3.对测序结果进行Unigene的基因结构分析,获得58,988个Unigene ORF,总长达27,565,503 bp。用Getorf预测柴胡Unigene的ORF表明,ORF长度在100-200 bp柴胡的Unigene居多,随着长度的增加,Unigene数目逐步减少。4.对Unigene库的基因结构进行SSR分析,共获得4,950个SSR标记。含有1个以上的SSR位点的Unigene有730个;单、二、三、四和五核苷酸重复的SSR位点分别有751、3,116、1,036、38和6个。5.通过对组装的Uuigene分析,共获得58,988个CDS,总长度为27,565,503 nt。其中,分布在0-300 nt的序列总量最多,有36,704条,占总量的62.22%;分布在2,000 nt以上的最少,有1,917条,仅占总量的3.25%。