论文部分内容阅读
陆地棉(Gossypium hirsutum)狭窄的遗传基础是其育种发展的瓶颈。发掘和利用远缘棉种的基因库已成为增强陆地棉遗传多样性的一个重要选择。黄褐棉(G.mustelinum)代表四倍体棉种最早的分化进化谱系,不但具有独特的逆境相关基因,同时也具有大幅提高纤维品质的潜力。但是黄褐棉基因资源尚未得到充分发掘和利用。本研究通过整合PacBio测序技术和Hi-C技术组装了高质量黄褐棉基因组;随后,对本课题组前期构建的黄褐棉渐渗系群体(Introgression lines,IL)进行基因组重测序,精确鉴定群体中的黄褐棉导入片段;进一步结合重要农艺性状4个环境(2年2点)的田间表型,开展QTL定位。主要研究结果如下:1.组装了高质量的黄褐棉染色体级基因组并完成了基因组注释。使用232Gb PacBio测序数据,进行基因组从头组装,获得1,509个contigs(2.3Gb),contig N50大小为9.5 Mb。然后,基于215 Gb的Hi-C数据进行Scaffolds和假染色体组装,所得26个染色体规模的scafflods占评估基因组大小的96%。对基因组组装质量进行综合评估,98.68%的基因组被至少10×的Illumina双端reads正确覆盖;98.2%的BUSCO基因被完整覆盖;基因组的长末端反转录转座子组装指数(LTR assembly index,LAI)为20.12。已知的棉花着丝粒5’LTR序列能够鉴定所有染色体的着丝粒区域。以上结果说明了较高的黄褐棉基因组组装完整性和准确性。对组装的黄褐棉基因组进行注释,获得了70776个蛋白质编码基因,预测的重复序列占Gm基因组的71.2%,主要为长末端重复转座子(Long terminal repeat retrotransposon-element,LTR),占Gm基因组的63.22%。2.LTR扩增在四倍体棉种分化中起到重要作用。将黄褐棉与陆地棉、亚洲棉、雷蒙德氏棉进行全基因组比对,发现雷蒙德氏棉基因组和四倍体Dt亚基因组间的共线性要显著好于亚洲棉基因组和At亚基因组,暗示A基因组在四倍体形成和随后的分化过程中经历了更活跃的变化。完整LTR的年龄和数量分布表明,除雷蒙德氏棉外,亚洲棉、黄褐棉和陆地棉都经历了TE扩张。进一步检测上述棉种基因组间的PAVs,发现亚洲棉基因组和两个四倍体At亚基因组间PAVs的数量和长度无显著差异,但D5基因组和四倍体Dt亚基因组间的PAVs要显著少于两个四倍体Dt之间的PAVs,这一差异与不同棉种内TE的扩张差异相符。几乎所有PAV都与TE相关,且PAV重叠LTR的插入时间显著晚于其他区域的LTR。以上结果提示转座子扩张是四倍体棉种分化后,遗传变异的主要来源之一。基因家族分析表明黄褐棉和陆地棉分别有4211和5516个物种特异基因。而与同源基因相比,这些物种特异基因与PAVs显著相关,并且具有更高的Ka/Ks值。GO富集分析显示PAV重叠的黄褐棉特异基因在黄褐棉的环境适应中发挥作用。3.利用重测序对黄褐棉渐渗系群体进行了导入片段精细鉴定对本课题构建的285个黄褐棉IL株系(BC4F5)进行基于5×基因组重测序的渗入片段鉴定,从264个IL株系中鉴定出1662个黄褐棉染色体导入片段。83%(2299/2769)的COs小于5 Kb。使用各IL株系导入片段和COs的鉴定结果绘制了bin图谱。该图谱将黄褐棉基因组分隔为2341个重组bins,覆盖黄褐棉基因组的94.92%,其中75.94%的bins小于0.5 Mb。利用构建好的bin图谱,对两个短纤维质量性状(绿色短绒和无短绒)的定位结果表明,该群体的高质量基因型可以对目的性状进行高分辨率的遗传作图。4.基于黄褐棉IL群体进行了重要农艺性状QTL的定位本研究考察了黄褐棉IL群体在4个环境中的6个品质性状、4个产量相关性状和4个株型性状,并进一步利用bin图谱进行性状的QTL定位,得到88个纤维品质QTLs、54个产量QTLs和35个株型性状QTLs。对上半部平均长度(up half mean length,UHML)、纤维伸长率(fiber elongation,FEL)、马克隆值(Micronaire,MIC)和纤维比强度(fiber strength,FS)来说,超过50%的QTLs的优异变异来自黄褐棉等位基因,说明黄褐棉基因具有提高纤维品质的潜力。在不同的环境间共检测到13个稳定的QTLs。q UHML-D05是一个在所有环境中检测到的QTL,能够增加4.08-12.03%的纤维长度。q FEL-A11是另一个在所有环境中检测到的稳定QTL,可增加10.36-21.71%的纤维伸长率。q UHML-D10和q SFC-D10共同定位在D10染色体一个26 Kb的bin上,q UHML-D10在能够在3个环境检测到,可使UHML减少5.02-6.78%,q SFC-D10能够在2个环境检测到,可增加6.41-7.7%的SFC。3个注释基因位于q UHML/SFC-D10区间内,其中一个热激转录因子基因Gm HSFA4A(Gmus_D10G10333)可能是最佳候选基因。转录组测序表明,在15 DPA的棉纤维中,该基因在相应导入系的表达量是对照组的9倍,这与预期的结果相吻合。