论文部分内容阅读
绝大多数动植物重要性状是由少数较大效应的基因和较多效应较小的基因控制,并受环境修饰的数量性状。为在动植物育种中更好地利用和改良这些性状,需要深入解析这些性状的遗传基础。目前,关联分析是解析数量性状遗传基础的主要途径。 随着测序技术的飞速发展,标记数p远大于样本容量n的超高维标记小样本数据已成常态。这无疑加重了关联分析的计算压力。如何在有限的样本容量下快速准确地从海量标记中筛选出与数量性状显著关联的位点成为一项重大挑战。当前广泛应用的关联分析方法是基于多基因背景和群体结构控制的单位点全基因组扫描。这些方法不能同时估计所有标记效应,只能在群体结构与多基因背景控制下单独估计每个标记效应。这些估计值可能是有偏的。为解决这一问题,本研究利用奇异值分解、SCAD和经验Bayes估计、多位点遗传模型和似然比检验,提出了一种多位点全基因组关联分析新方法,通过三个Monte Carlo模拟试验和拟南芥开花时间相关性状分析,来证实新方法的有效性。主要结果如下: 1、新方法分为两步:1)潜在关联标记的选择。通过奇异值分解获得所有标记的效应值,效应值较大的标记为可能潜在关联标记,进一步用SCAD压缩估计选择出潜在关联标记;2)显著QTN(quantitative trait nucleotide)的鉴定。将潜在关联标记放入多位点模型中,用经验Bayes估计这些潜在关联标记效应,当效应绝对值大于10-5时用似然比检验鉴定其与性状的显著关联性。这种方法称为基于奇异值分解和SCAD估计(Singular value decomposition-SCAD screening plus empirical Bayes,S3-EB)的多位点关联分析方法。 2、通过三个Monte Carlo计算机模拟试验来验证S3-EB的有效性。在第一个模拟试验中,从199个拟南芥品系216130个SNP的实际关联群体中随机抽取10000个SNP作为模拟关联群体的基因型。在稀有等位基因频率等于0.3的6个SNP上设置了6个模拟QTNs,其遗传率分别设为0.1、0.05、0.05、0.15、0.05和0.05。群体平均数和误差方差均设置为10。通过模拟QTN基因型值和随机误差获得199个品系的模拟表型观察值,并重复1000次。用S3-EB、mrMLM、EMMA和FarmCPU四种方法分别分析每个模拟样本数据,结果表明:1)用上述四种方法检测6个模拟QTNs的平均功效分别为74.8、67.03、46.0和41.87(%),成对t检验表明:S3-EB的统计功效显著高于另外三种方法(P-值介于0.0036与0.0063之间);2)6个模拟QTNs的平均均方误差(mean squared error,MSE)分别为0.1064、0.0934、0.5432和0.2824,成对t检验表明:S3-EB的MSE显著低于EMMA(P-值等于0.015),但与mrMLM和FarmCPU无显著差异(P-值分别等于0.3199和0.1549);3)上述四种方法的计算时间分别为0.79、4.01、68.77和5.12小时;4)四种方法的假阳性率分别为0.0489、0.0167、0.0325和0.0178(%),处于同一数量级。 若在第一个模拟试验中分别添加多基因背景和上位性背景,以研究这些背景干扰对S3-EB的QTN检测功效和参数估计精度的影响。结果表明:这些结果与第一个模拟试验结果趋势一致。 综上所述,新方法通过奇异值分解,将运算维度由计算数十万计SNP标记效应个数降低为计算数干计样本容量效应数,快速获得同一模型下全部标记效应值,有利于潜在关联变量选择,提高了统计功效和参数估计精度,缩短了计算时间,使假阳性率与Bonferroni矫正方法处于同一量级,验证了新方法的有效性。 3、用上述四种方法分析了下载的199个拟南芥品系216130个SNP的开花时间相关性状FLC、FRI、FT-GH和FT-Field。结果表明:1)上述四种方法检测到与FLC显著关联标记数分别为15、21、0和6,计算时间分别为0.0083、0.0684、1.0767和0.0838小时;与FRI显著关联的标记数分别为6、8、33和5;与FT-GH显著关联的标记数分别为17、4、0和7;与FT-Field显著关联的标记数分别为17、24、0和9;2)建立数量性状表型与显著关联标记间的多元线性回归模型,FLC性状四种方法的BIC值分别为336、328.2、596.5和521.3;FRI的BIC值分别为163.5、156.7、322.3和211.6;FT-GH性状的BIC值分别为-321.2、-296.1、314.6和-465.0;FT-Field性状的BIC值分别为30.4、318.9、306.9和156.6。新方法BIC值处于最小或者次小,说明新方法是相对较优的;3)在上述关联标记±50kb范围内,上述四种方法分别检测到59、9、3和8个已报道的性状相关基因,其中39个仅被S3-EB方法检测到。这些结果也证实新方法的有效性。 为了便于推广应用该方法,在R环境下,基于附加包shiny,研制了S3-EB方法的应用程序,嵌入多位点关联分析软件包mrMLM,可在Windows、Mac和Linux系统下运行操作。