论文部分内容阅读
马尾松(Pinus massoniana Lamb.)属松科(Pinaceae)松属(Pinus),是我国南方地区造林面积最大主要工业用材树种,脂、材兼用,用途广泛,具有速生、丰产、优质、抗逆性强、耐干旱瘠薄等优点,在木材、松脂生产以及维护国家生态安全中发挥着重要作用。基于表型选择的马尾松常规育种周期长、选择效率低、耗时费力,全基因组选择育种(Genomic Selection,GS)是基于基因型变异分析的早期选择育种新技术,已被广泛用于动物和作物育种,它在缩短林木育种周期、提高育种选择效率、加速林木新品种选育等方面应用前景广阔。本论文以福建马尾松种子园去劣留优优良家系子代测定林中60个家系293个样本为试验对象,进行简化基因组测序(Genotyping-by-sequencing,GBS)、de novo从头组装马尾松参考本开发SNP,开展马尾松GBS-SNP开发的全基因组选择GS育种研究,首次在国内建立基于GBS测序SNP开发的马尾松GS育种技术体系,为构建国内马尾松GS新技术育种平台奠定研究基础。主要研究结果如下:1)提取马尾松293个样本的针叶基因组DNA,经EcoRV和ScaⅠ双酶切、简化基因组(Genotyping-by-sequencing)测序文库构建和 Illumina NovaseqTM 6000 PE 150bp双端测序,共获得586个原始测序文件,应用fastp检测质控和清洗过滤掉低质量序列后,单个样本clean文件的测序量平均为4.11 Gb/样本;测序样本的Q30分布范围在91.03~95.01%之间,平均为93.60%;测序样本的GC含量变动在40.92~44.92%,平均 45.36%。2)应用npGeno和MEGAHIT两个组装软件设置不同参数开展马尾松de novo REF参考本从头组装,结果表明:不同的组装策略所获得的de novo REF的Contigs数量相差较大,基于npGeno软件组装获得的重叠群contigs数量变动于6 256~269951之间,而MEGAHIT软件组装获得的重叠群Contigs数量变动于1 810 243~486003 127条之间。对npGeno和MEGAHIT两个组装软件基于24个样本参与下组装所获得的马尾松de novo REF重叠群Contigs与火炬松(P.taeta)全测序基因组Blast同源比对,以序列一致性(identity)大于95%为选择阈值,分别获得Contigs数量为59393和843 351,其在火炬松基因组中的覆盖度分别达到3.28%(npGeno)和5.17%(MEGAHIT)。3)以两套分别来自npGeno和MEGAHIT的de novoREF和来自NCBI下载的马尾松第三代全长转录本(P.massoniana RNAseq Transcripts,PmRNAseqT)为参考本进行SNP开发,获得原始SNP数量为分别为859 314、26 749 890和9 656 901;经对293个样本检测到的SNP设置过滤条件(缺失值比例为0、不同基因型频率大于0.02)来筛选SNP,获得有效SNP数量分别为17 213(npGeno)、568 124(MEGAHIT)和 69 306(PmRNAseqT)。把来自 npGeno 和 MEGAHIT 参考组比对检测到SNP的Contigs分别与3个公共数据库(Nr、KEGG、GO)中的核苷酸序列或蛋白序列进行Blast 比对、功能注释,结果表明,检测到SNP的来自npGeno的参考组Contigs其注释率在三个数据库中分别为21.36%(Nr)、2.40%(KEGG)和27.00%(GO),而检测到SNP的来自MEGAHIT的Contigs其注释率分别36.25%(Nr)、3.87%(KEGG)和 41.72%(GO)。4)针对马尾松目标性状(树高、胸径、材积),应用不同来源参考本开发获得的3套有效SNP,调用rrBLUP GS模型,开展不同参数设置影响马尾松GS育种预测准确率(Genomic Prediction Accuracy,GPA)的探讨,结果表明:SNP来源、SN P数量以及训练群体大小对马尾松GS育种GPA的影响显著;总体上而言,基于马尾松转录本参考组而开发的SNP用于马尾松GS育种其GPA预测准确率较高,SNP来源对GPA准确率有极大的影响,如应用PmRNAseqT-SNP开展对材积GPA的预测,最高可达 47.09%,高于 npGeno-SNP 的材积 GPA(23.29%)和 MEGAHIT-SNP的材积GPA(45.24%);随着训练群体比例增大,三个目标性状在各自不同来源的S NP组中的GPA略有上升,但其波动幅度较小,波动范围分别为19.80~22.86%(np Geno-SNP)、35.20~39.79%(MEGAHIT-SNP)和 44.14~46.27%(PmRNAseqT-SN P);随着用于GS育种的SNP数量从100增加至3 000(npGeno-SNP)或5 000(M EGAHIT-SNP,RNAseq-SNP),各个SNP组内GPA呈缓慢上升,而当SNP数量超过3 000或5 000后,各SNP组内GPA值趋于稳定;在不同来源的SNP组用于马尾松GS育种,在不同SNP数量参数设置下,对树高预测得到的GPA分别为-0.09~20.06%(npGeno-SNP)、13.18~43.69%(MEGAHIT-SNP)和 13.18~45.11%(PmRNAse qT-SNP);对胸径预测得到的 GPA 分别为 0.27~23.29%(npGeno-SNP)、13.44-45.33%(MEGAHIT-SNP)和 13.87%~44.03%(PmRNAseqT-SNP);对材积预测的 GPA分别为-1.16%~21.12%(npGeno-SNP)、14.77%~45.24%(MEGAHIT-SNP)和 14.76~47.09(PmRNAseqT-SNP)。综上,基于mRNA测序获得的参考本用于马尾松SNP开发GS育种研究,其预测准确率更高,有必要开发基于基因表达区mRNA测序SN P开发的林木GS育种技术体系。