论文部分内容阅读
大豆(Glycine max(L.)Merr.)是我国重要的粮食和油料作物。大豆花期是影响大豆生态适应性和产量的重要性状。在大豆育种的过程中,育种者往往需要在多环境试验中种植供试大豆以选择反复表现出固定特性的品种,这种方法费时费力。因此,通过构建基因型-表型互作的大豆花期模拟模型实现花期模拟预测,将会加速育种进程,实现大豆精确育种。基于过程的CROPGRO-Soybean花期模型(简称大豆花期模型)使用品种参数表达不同品种对环境响应的差异。但事实上,品种参数的遗传可解释性一直受到育种专家的质疑。因此本研究旨在探索大豆花期模型品种参数的遗传学基础,并利用单核苷酸多态性(single nucleotide polymorphism,SNP)分子标记数据对大豆花期模型进行改进,从而构建基于基因与环境互作的大豆花期模型。本研究以种植于江苏南京、安徽当涂两地5个环境的江淮大豆育种种质群体309种新品种(系)为材料,花期为目标性状,分别使用蒙特卡洛马尔科夫链方法(Markov Chain Monte Carlo,MCMC)、广义似然不确定性估计(Generalized Likelihood Uncertainty Estimation,GLUE)、差分进化算法(Differential Evolution Algorithm,DE)、遗传算法(Genetic Algorithm,GA)进行了品种参数校正,获取了能够反映品种特性的品种参数。结果表明:GLUE、MCMC、DE、GA的平均均方根误差(ARMSE)分别为2.56d、2.59d、2.59d、2.58d。主要贡献如下:(1)基于MLM的CROPGRO-Soybean花期模型品种参数的遗传学解析针对CROPGRO-Soybean花期模型品种参数遗传学基础未知以及不同校正算法对其产生的影响未知的问题。本研究基于全基因组关联分析(Genome-Wide Association Studies,GWAS)中的混合线性模型(Mixed Liner Model,MLM)方法,对大豆花期模型品种参数进行遗传可解释性研究,比较并分析了 4种不同算法所得品种参数对GWAS结果的影响。结果表明:(1)不同的校正算法会对品种参数所得显著SNP标记造成影响。4种不同的校正算法所得显著SNP位点仅在CSDL参数上有10.1%-44.9%的重复标记,在PPSEN和EMFL中均无重复定位的标记。(2)4种校正算法获得的CSDL和实测花期均显著定位到大豆生育期E1基因(-log10(p)=5.29);GLUE和MCMC获得的CSDL均定位到大豆生育期E9基因(-log10(p)=5.83),两者均是豆科植物特有的调控大豆开花的主效基因,分别解释了 6.94%和7.8%的品种参数变异。(3)CSDL、PPSEN和EMFL均能定位到与自身语义相符的QTL/基因,均具有遗传学基础。在CSDL中,被多种算法和实测花期共定位到的First flower 4-g2、First flower 7-g6均被前人报道与光周期控制大豆花期相关;在PPSEN中,MCMC和GLUE算法分别定位到了First flower 4-g39和Firstflower 4-g76,两者均被认为是具有较大影响力的光温途径控制开花时间基因座;在EMFL中,DE算法定位到的First flower 4-g66以及GLUE定位到的R8 full maturity 10-g8均被前人报道为重要的控制开花时间基因座。(2)基于SNP标记的CROPGRO-Soybean花期模型构建针对不同校正算法所得显著SNP位点差异大导致的特征SNP位点选择策略与表示不明的问题。本研究利用(1)中筛选的显著SNP位点,构建了 SNP-CROPGRO-SFM模型(SNP-Based CROPGRO Soybean Flowering Model,SNP-CROPGRO-SFM),通过对309种供试大豆设计5折交叉验证,比较了 a:选择单一 SNP位点数据集和b:4种算法所得SNP位点数据集的并集两种特征选择策略以及c/d:是否利用GWAS结果的两种SNP编码策略的模拟精度。并将最优策略下的结果与大豆花期模型、基因组选择模型(Ridge Regression Best Linear Unbiased Prediction,rrBLUP)进行 了比较。结果表明(1)SNP-CROPGRO-SFM在提升了 CROPGRO-Soybean花期模型遗传学可解释性的基础上,仍然保持可以接受的模型精度。SNP-CROPGRO-SFM、CROPGRO模型、rrBLUP的ARMSE分别为4.06d、1.82d、5.81d;(2)相对于前人使用的单一校正算法获取特征SNP位点,本文提出了的综合多种校正算法显著SNP的并集的构建特征SNP位点数据集的策略在5折交叉验证平均ARMSE上降低了 0.036d。可见该特征SNP位点选择策略对于SNP-CROPGRO-SFM模型模拟精度有一定的提升。(3)相较于前人采用的基于GWAS结果的编码方式,本文采用的无先验特征SNP位点编码方式使得模型在在5折交叉验证平均ARMSE上降低了 0.404d,可见该编码方法对于SNP-CROPGRO-SFM模型模拟精度有明显的提升。