论文部分内容阅读
转录组通常指所有信使RNA的集合。通过RNA-Seq技术,人们可获得大量的转录组序列信息,开展基因表达、功能分析、信号通路构建和分子进化分析等。本文以昆虫转录组为研究对象,开展了6种昆虫的比较转录组学研究,对昆虫转录组进行了分类,提出了两个评估昆虫转录组拼接质量的参数(Contigs containing the intact CDS,长度比率中位数LR50),开发了基于转录组的昆虫信号通路构建软件iPathCons,建立了昆虫信号通路数据库iPathDB。1、三化螟和稻纵卷叶螟的转录组测序分析将三化螟(Scirpophaga incertulas)和稻纵卷叶螟(Cnaphalocrocis medinalis)的卵、幼虫、蛹、成虫等不同发育时期的试虫分别提取RNA,混合后进行转录组测序。分别获得2100万条三化螟的Reads,总共约15亿bp的转录组数据;4300万条稻纵卷叶螟Reads,约32亿bp的转录组数据。使用Trinity和SOAPdenovo拼接,经过比较,选用Trinity的拼接结果进行了表达丰度分析、基因注释、COG分析等。结果显示,三化螟和稻纵卷叶螟的转录组分别有45%和50%的序列能够被注释为蛋白编码基因,其余转录本无法注释,可能为非编码RNA序列或蛋白基因序列的非翻译区。2、六种昆虫的比较转录组分析从SRA数据库中下载了中华蜜蜂、丝光绿蝇、褐飞虱和烟粉虱的转录组原始数据,进行了拼接,使用nr数据库注释。然后对三化螟、稻纵卷叶螟、中华蜜蜂、丝光绿蝇、褐飞虱和烟粉虱等6个昆虫的转录组进行比较分析。丝光绿蝇转录组被注释为蛋白编码基因的比例最高,达到57%;其次为褐飞虱转录组,为56%:最少为烟粉虱,仅28%。利用双向Blast的最优匹配法进行直系同源搜索,长度比值在0.9-1.1之间的序列作为含有完整CDS的序列。在三化螟、稻纵卷叶螟、中华蜜蜂、丝光绿蝇、褐飞虱和烟粉虱等6个昆虫中分别发现了2,258、2,058、3,626、5,053、2,094和2,173条完整CDS的转录本序列。GO分析发现,6个昆虫在生化过程(Biological Process)中的差异最为明显,丝光绿蝇在发育过程(Developmental Process)中所占比例为44%,明显比其他五个物种多。在三化螟、稻纵卷叶螟、褐飞虱和烟粉虱等4个农业害虫中发现的细胞色素P450基因序列比丝光绿蝇和中华蜜蜂多,可能与农业害虫受到农药等环境因子更多的选择压力有关。丝光绿蝇中有一类特异的嗅觉蛋白(Odorant Binding Protein, OBP),表明蝇类具有更发达的嗅觉。在三化螟、稻纵卷叶螟、中华蜜蜂、褐飞虱和烟粉虱等昆虫中,发现了系统性RNAi相关的关键基因Sid-2,但是该基因没有在丝光绿蝇中找到。上述结果表明,不同昆虫转录组之间差异较大,一方面可能是由测序覆盖度的差异造成,另一方面也反映了物种之间的差异,显示转录组可用于分子进化和分子分类等研究,比较转录组学是将来转录组数据分析的发展方向之一。3、昆虫转录组数据拼接质量的评估软件开发转录组数据质量影响到后续分析的可靠性。目前主要根据N50的大小进行转录组质量评估,具有较大的局限性。为此,我们提出了两个指标来评估转录组的质量,包含完整CDS序列的百分比(CCIC)和长度比率中位数(LR50),其主要是通过转录组序列的完整性来评价转录组拼接质量。首先,将转录组序列分为四个类别:有完整CDS的序列、有5’UTR的片段、有3’UTR的片段和CDS片段。然后,计算转录组中的CCIC百分比和LR50。利用果蝇转录组数据进行模拟分析,表明CCIC百分比和LR50能够更加客观合理地反应转录组的拼接质量。使用LR50评估了6种昆虫转录组的拼接质量,发现三化螟和稻纵卷叶螟转录组的拼接质量不高。4、昆虫信号通路的构建软件iPathCons为了充分利用转录组数据,开发了iPathCons软件用于从昆虫转录组数据构建信号通路。以KEGG中20个昆虫的信号通路信息为模板,利用iPathCons分析了其他15个昆虫的基因组数据,构建了信号通路。因此,总共获得了35个昆虫的信号通路数据,以这些数据为模板,构建了iPathCons网络服务器,用于从转录组数据构建昆虫信号通路。进一步利用iPathCons从17个昆虫转录组数据中构建了信号通路,并进行了比较分析,发现72%的人类疾病相关信号通路在昆虫中能够被发现,表明昆虫可作为人类疾病模型开展相关研究。通过文献搜索,在35个基因组已知的昆虫中检索出翅发育相关的基因,构建了昆虫翅发育的信号通路。结果表明,9个昆虫的翅发育信号通路是完整的,16个昆虫缺失Ser基因,6个昆虫缺失瞻基因,4个昆虫缺失Ser和Vg两个基因。分析发现,在同等测序深度下,信号通路“淀粉和糖代谢(Starch and sucrose metabolism)”在中华蜜蜂中是完整的,包含了所有9个基因,而在其他昆虫中仅发现了3个基因,表明与糖代谢相关的基因在中华蜜蜂中的表达量很高,这可能与中华蜜蜂采集花蜜有关。5、昆虫信号通路的数据库iPathDB和在线分析网站构建了52个昆虫信号通路的数据库iPathDB,搭建了昆虫信号通路网站,提供昆虫信号通路数据的查询和下载,网站地址为:http://ento.njau.edu.cn/iPath。该数据库共包含了6个目,12,074个昆虫信号通路,98,813个基因的注释,414,895条序列。目前,分子生物学已经进入到系统生物学时代,从信号通路和基因网络的层次研究“基因与性状”之间的关系,是未来发展趋势,iPathDB的构建为从信号通路水平开展相关分析提供了可能和重要的参考。