论文部分内容阅读
近年来,随着新一代测序技术的普及和推广,高通量测序获得的大规模数据为现代生物学研究提供了传统测序技术难以企及的海量数据基础。高通量测序的快速发展和测序价格的不断降低使得基于成百上千个基因进行系统发育重建的研究和非模式生物基因组数据的获得成为可能。目前,绝大多数基因组或者转录组数据仍然集中在少数的模式生物或者是在疾病传播过程中发挥重要作用以及具有重要经济价值的生物中。但是在进化生物学中具有重要节点意义的生物中,虽然已有一些转录组水平的数据,但是相比于高级阶元类群的多样性来说仍然十分匮乏。异翅亚目昆虫是物种多样性最为丰富的非完全变态昆虫中辐射进化最成功的类群,以往异翅亚目高级阶元的系统发育研究大多是基于形态学性状或者是少数几个基因片段、线粒体基因组给出的结果,并且没有达成相对统一的认知。本文以异翅亚目七个次目的代表性类群和蝽次目五个总科的代表类群作为研究对象,进行了基于IlluminaHiseq2000测序平台的转录组测序分析,完成了蝽类昆虫高级阶元的比较转录组学分析,主要包括三个部分。 第一部分,异翅亚目昆虫高级阶元的转录组数据分析。利用IlluminaHiseq2000测序平台体系获得了异翅亚目7个次目的20个物种的转录组数据。每个转录组经过读段清理后的数据量均在4G左右,经过fastqclean质量控制对原始数据的读段清理、Trinity序列拼接、BLAST2GO序列注释、KEGG代谢通路分析、简单重复序列SSR分子标记开发等数据处理流程,发现得到注释的基因比例从31.6%到69.6%不等,绝大多数被注释的基因都在生物体维持正常生命活动的过程中(新陈代谢通路、RNA运输和肌动蛋白细胞骨架调控等)发挥着重要的作用,不同物种的GO注释分布几乎不存在偏差。此外,在20种异翅亚目昆虫的转录组数据中均发现了一系列和杀虫剂抗药性以及外源毒素代谢相关的P450超家族基因,为研究重要经济类害虫的抗药性机制和有效的防治提供了丰富而重要的序列数据。利用转录组数据在每个物种中都找到了数千个简单重复序列SSR,利用Primer3软件开发的SSR分子标记,可以在今后的种群生态学、景观遗传学、谱系地理学等相关研究中发挥重要作用。根据蛋白质矩阵的分组和比对,发现了559个类群特异性位点,分属于339个直同源基因,这些类群特异性位点的获得为进一步解析不同栖息环境对生物的选择压力和推断分歧时间奠定了重要的数据基础。 第二部分,基于转录组数据的异翅亚目分子系统学研究。迄今为止的异翅亚目各次目系统发育研究结果仍存在较大争议。本研究选取21个异翅亚目类群和3个连续外群为代表,利用HaMStR数据处理流程和1886个直同源基因参考数据集,获得了由1016个直同源基因组成的拥有318060个氨基酸位点的超级矩阵,采用最大似然法和贝叶斯分析等方法进行系统发育分析,分析结果支持((奇蝽次目+黾蝽次目)+(蝎蝽次目+(细蝽次目+(臭虫次目+(鞭蝽次目+蝽次目)))))。各次目的单系性得到了很好的支持,各次目的关系得到了高支持率的解析,其中鞭蝽次目的位置与原有的认知发生了偏差,除此之外,此结论与Wheeler等人所得结论相似,而不同于以往基于形态学数据、18SrDNA或线粒体基因组序列所提的结论。通过分析,矩阵中有97.2%的直系同源基因给出了一致的系统发育信号,并不存在大量的系统发育信号杂音,我们考虑可能是不平衡分布的缺失数据被作为共有衍征而将原本远缘的分支错误地聚在一起。 第三部分,基于转录组数据的蝽次目分子系统学研究。截至目前为止,蝽次目内部各总科之间的关系还存在一定争议。本研究选取蝽次目5个总科的9个物种作为研究内群,3个臭虫次目的转录组数据作为研究外群,通过HaMStR数据处理流程和1886个直同源基因核心参考数据集进行直同源预测,利用与异翅亚目系统发育分析相同的超级矩阵,采用最大似然法和贝叶斯分析等方法进行系统发育分析,分析结果支持毛点类昆虫的单系性,蝽次目内部呈现(扁蝽总科+(蝽总科+(长蝽总科+(红蝽总科+缘蝽总科))))的关系,与基于形态数据和Hox基因的分析结果一致,而不同于以往基于其他分子标记或者线粒体基因组数据的分析结果。与很多基于大规模转录组数据的系统发育研究相似,本实验结果与基于形态矩阵或者传统的系统发育关系保持一致。