论文部分内容阅读
传统的分子标记数量有限而且难以分型,利用这些标记构建的林木遗传图谱密度相对较低,因而限制了林木数量性状位点(QTL)定位、分子标记辅助育种、基因组组装和比较基因组学等研究的进一步发展。限制性位点关联DNA测序(RAD-seq)是一种能够快速经济地获得作图群体所需的成千上万个SNP标记的测序技术,有助于构建高密度林木遗传连锁图谱。目前,RAD-seq数据分析软件包主要针对系统发育及群体遗传学方面的研究,然而用于获得作图群体中大量SNP标记的软件包相对较少。如何从RAD-seq大数据中提取出群体中大量个体的SNP基因型数据是一个极其具有挑战性的问题。因此,有必要开发新的软件以便获取群体中大量高质量的SNP基因型数据,从而构建林木高密度遗传连锁图谱。本研究开发了一个新的名为gmRAD的软件包,该软件能够对RAD双端测序序列及不同长度的序列进行分析,获得遗传作图所需的大量SNP标记数据,其网址为https://gith ub.com/tongchf/gmRAD。gmRAD主要分为五个步骤来实现整个算法:(1)对每个亲本双端序列的左端序列进行聚类;(2)将每个聚类与之对应的左端和右端序列提取出来进行拼接,建立两个亲本的参考序列;(3)形成亲本的SNP目录;(4)获得所有个体的SNP基因型;(5)根据分离模式、孟德尔分离定律和作图群体中基因型数据缺失情况,筛选SNP标记生成可用于遗传作图的基因型数据集。使用gmRAD时,这五个步骤可以用一个命令来完成,但每一个步骤也可以独立地分析计算。使用gmRAD对美洲黑杨和小叶杨杂交F1代群体两个亲本和418个子代的RAD-seq数据进行了分析,获得了大量的SNP标记,构建了两个亲本高密度遗传连锁图谱。两个亲本及其子代的RAD-seq数据量达到1486.2 Gb,对此进行分析获得了4021个分离类型为ab?aa的SNP和2101个分离类型为aa?ab的SNP。经过两点连锁分析后,有4018个分离类型为ab?aa的SNP在LOD临界值介于7-55范围内均被划分为19个连锁群;同样地,有2097个分离类型为aa?ab的SNP在LOD值为7-29的范围内也一致地被划分为19个连锁群。该结果表明连锁群划分的数目与杨树染色体的核型完全匹配。然后,使用多种作图软件对每个连锁群中的标记进行排序,从中选出最优的排序构建图谱。结果使用分离类型为ab?aa的SNP构建了母本美洲黑杨的高密度遗传连锁图谱,连锁群的长度介于217.03到928.64 cM之间,总图距为7838.48cM,标记区间平均图距为1.96 cM;使用分离类型为aa?ab的SNP构建了父本小叶杨的高密度遗传连锁图谱,连锁群图距介于144.41和716.40cM之间,总图距为5506.35 cM,标记区间的平均图距为2.65 cM。本研究开发的软件gmRAD可以快速有效地分析作图群体的RAD-seq数据,获取大量的SNP标记数据用于构建高密度遗传连锁图谱。不但可用于高度杂合、没有参考基因组的林木作图群体,而且也适用于自交系中的回交群体和F2代群体。本研究构建的美洲黑杨和小叶杨两个亲本的高密度遗传图谱,无论是在标记数据的质量上还是在连锁群内标记排序的精度上都比较高,为后续对杨树进行数量性状基因定位、基因组组装和比较基因组学研究提供了重要的遗传资源。