论文部分内容阅读
分子系统树构建是推断物种亲缘关系的重要方法,其结果常受到很多因素的影响,比如数据及筛选策略(基因标记和建树物种选择).理想的构建分子系统树的数据集应该包含所有的内类群,以及解决不同阶元系统关系的基因序列.原生动物由于个体微小,难以采集和培养特定的物种/类群,在实际建树过程中很难控制建树物种的选择.GenBank等公共数据库为我们提供了大量已经释放的相关序列可用于分子系统学研究.调取公共数据库中的序列信息时常面临两个问题:(1)大量序列来自于环境样品中的未鉴定物种,这些序列对探讨物种亲缘关系是否有帮助?(2)不同物种测序的基因种类并非完全相同,数据集中某些基因/物种的缺失是否影响系统树的拓扑结构?针对这两个问题,我们以纤毛虫为研究对象,探讨分子系统树构建时数据集的筛选策略.结果表明:(1)环境样品高通量测序产生的大量未定种序列的加入,能有效提高系统树的拓扑结构.(2)不管单基因系统树之间是否存在差异,多基因均可以提高分子系统树的准确度;(3)当某一基因缺乏某些物种的测序信息时,我们考量它是否应该加入到多基因数据集中,更应该考量该单基因系统树与其它单基因系统树之间的拓扑结构一致性以及置信值,而非缺失序列信息的物种多少.