论文部分内容阅读
基因的增加和缺失是两种主要的拷贝数变异形式。基因拷贝数在物种进化的过程中频繁的发生变化,基因拷贝数变异引起基因家族大小的变化,而基因家族的变化,可能是物种适应环境的结果,这种结果可能导致该物种在形态、生物学功能上有所变化,通过比较基因组的方法可以帮助我们探讨这样的变化规律以及解释发生这些改变的原因。通过比较基因组学的方法,我们将不同物种的基因组进行比较,识别出有基因拷贝数变异的基因家族,这有助于我们确定基因拷贝数变异与物种适应性进化的关系。因此,本实验选择了以下10种植物基因组进行相关分析:拟南芥、欧洲油菜、木本棉、陆地棉、花生、芝麻、玉米、大豆、油橄榄、油棕。利用全基因组测序数据和比较算法,帮助我们鉴定植物中的基因家族和基因拷贝数变异情况。由于较大的基因组可能含有多个旁系同源基因,并且序列信息往往不完整等原因,我们利用全基因组比较方法鉴定植物中所有的基因家族,使用BLAST(Basic local alignment search tool)确定物种间的同源基因,通过OrthoMCL(一种鉴定同源基因家族的软件)所使用的马尔可夫聚类算法将彼此同源的基因归为同一个基因家族。比较基因家族中各物种中基因拷贝数的情况,从中筛选出拷贝数变异的基因。通过聚类,我们在所有的10个基因组中,总共鉴定了96212个基因家族,包含286462个基因。我们发现有62786个基因家族只包含有一个物种的相关基因,我们将这些家族归为物种特有基因家族。在剩余的33426个基因家族中,单拷贝基因家族有17个,剩下的33409个多拷贝基因家族中基因的拷贝数在个物种中不相等,即为发生了基因拷贝数变异的多拷贝基因家族。从33426个基因家族中,找到5840个基因家族在他们的共同祖先中存在,共42348个基因,平均每个基因家族有7.25个基因。其中最大的一个基因家族包含所有的十个物种中的104个基因。在这5840个基因家族中,有4890个基因家族至少在一个物种中完全丢失,在所有十个物种中都存在拷贝的950个基因家族最有可能代表油脂植物的核心蛋白质组。通过比较基因组研究发现生物体间涉及不同细胞和发育过程的基因拷贝数的差异很大,甚至显示了来自各个谱系的整个基因家族的丧失或者新的基因家族的出现。虽然这些研究开始对表型进化的分子基础提供一些洞察力,但是考虑的时间表通常太长,无法为单一性状的变化提供证据。物种间总基因数量的表观一致掩盖了个体基因增加和缺失的快速更新。这种现象很可能在塑造物种间的形态,生理和代谢差异方面发挥了重要作用。为了得到一个全面、准确的拷贝数变异的进化数据,我们应用了Hahn等开发的概率框架,假设所有基因具有相等的增加(出生)和缺失(死亡)概率,我们利用最大期望算法(EM)从数据中学习。实验结果显示,相关植物的基因周转率平均为=0.0034;植物的基因增加和缺失的估计速率意味着在单个基因组中,约每百万年固定约92个新的重复和92个新的损失(0.0034个损益/基因/百万年×27000个基因)。我们利用GO(gene ontology,基因本体论)分析对物种特有基因家族进行分类和功能富集,了解这些基因的分子功能和产物特性,大多数基因都存在功能富集,在生物学过程中包含DNA合成、蛋白质合成、代谢过程调节、蛋白质修饰、脂肪酸生物合成等过程。本研究为全面理解基因拷贝数变异与进化之间的关系提供了思路,特定基因的筛选为研究植物单一性状的进化提供了研究基础。