论文部分内容阅读
串联重复序列是植物基因组中一类重要的基因组组分。我们以植物基因组中功能串联重复序列-串联重复基因和简单串联重复序列-微卫星DNA为研究对象,结合目前已经发布的植物基因组数据,进行了全基因组水平上的深度信息挖掘和数据整合,并构建了两类串联重复序列的在线服务平台。1.串联重复基因对芝麻基因组复杂性的影响芝麻基因组先后经历了基因组的多倍化事件和串联重复事件,这两类事件为研究芝麻基因组的复杂性提供了丰富的数据基础。通过芝麻两条亚基因组的共线性分析发现,芝麻经历了多倍化以后产生的两条亚基因组中的共线性基因对经历了不对等的丢失。基因组的多倍化和串联重复事件产生的多拷贝基因的序列比较,我们发现芝麻基因组中大部分的串联重复基因是在多倍化之后产生的,但是也有一些串联重复基因位于亚基因组上,而且在两条亚基因组上有对应的共线性基因对,这就意味两条亚基因组上成对存在的串联重复基因在芝麻基因组多倍化之前就已经存在。通过对芝麻基因组的多倍化事件和串联重复事件对芝麻基因组影响的比较分析,我们发现两类事件都导致了芝麻基因组中基因剂量的增加,但是两类事件带来的基因功能相互补偿,协同作用,共同维护了物种的稳定。2.串联重复基因对细胞色素P450基因家族的影响根据已经发布的拟南芥、白菜和甘蓝基因组数据,利用细胞色素P450基因家族的保守结构特征,我们在拟南芥、白菜和甘蓝基因组中分别鉴定得到251、356和346个P450基因。三个物种基因组的进化分析和共线性分析显示芸薹属物种基因组中P450基因家族的扩张主要是由基因组的多倍化事件和串联重复事件引起的,而基因组多倍化事件是芸薹属物种中P450基因家族扩张的主要机制。通过对芸薹属中P450基因的转录组分析,我们发现多倍化事件产生的P450基因的表达模式几乎一致,但是串联重复事件产生的P450基因的表达模式差异显著。3.创建了植物基因组串联重复基因的数据库本研究整理了39个已经完成基因组测序的植物物种的基因组数据,进行了植物基因组中串联重复基因的鉴定。首先,利用物种的系统发育关系确定39个物种所属的不同进化分支,然后利用orthoMCL来确定不同进化分支上的同源基因簇;其次,确定同源基因在39不同物种的染色体或基因组大片段上的位置;最后,利用orthoMCL鉴定得到的同源基因簇在染色体或基因组大片段上的位置,确定串联重复基因簇。经过整理,共得到39个植物基因组中的54,130串联重复基因簇及其对应的129,652个串联重复基因。根据上述挖掘得到的数据,构建了39个物种的植物基因组串联重复基因的数据库PTGBase。4.创建了植物基因组微卫星DNA及其标记设计的数据库基于已发布的微卫星DNA鉴定的Perl程序(MISA),我们进行了优化修改,降低了程序复杂度,提高了运算效率,进一步搭建了微卫星DNA及其标记开发的流程。利用该流程,从110个已经完成基因组测序的植物基因组中鉴定得到了26,230,099微卫星DNA,并为每个微卫星DNA提供了多达3对的引物序列。利用微卫星DNA鉴定的流程,开发了一个用于在线鉴定微卫星DNA的网络服务MISAweb。我们把这两部分内容整合起来,构建了植物基因组微卫星DNA及其标记设计的数据库PMDBase。因此,PMDBase既可以帮助用户获取重要植物基因组中微卫星DNA的数据信息,又可以利用在线工具MISAweb来鉴定自己感兴趣的物种基因组区段上的微卫星DNA,并进行在线的批量分子标记设计。本研究对植物基因组中功能串联重复序列-串联重复基因在基因组和基因家族两个层面上进行了详细的信息挖掘,深入探讨了串联重复基因对基因组和基因家族进化和形成机制的影响,并构建了植物基因组串联重复基因的数据库。通过植物基因组中简单串联重复序列-微卫星DNA在不同植物基因组中的信息挖掘,进行了不同物种基因组间,以及基因区和基因间区的比较分析,并构建了植物基因组微卫星DNA及其标记设计的数据库。该研究不仅可以为研究者们研究基因组和基因家族进化和比较分析提供生物学模型,而且可以为研究者们在基因组学,比较基因组学以及分子育种研究提供基因资源丰富的在线服务平台。