基于奇异值分解和SCAD估计的多位点全基因组关联分析方法

来源 :华中农业大学 | 被引量 : 0次 | 上传用户:olived0
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
绝大多数动植物重要性状是由少数较大效应的基因和较多效应较小的基因控制,并受环境修饰的数量性状。为在动植物育种中更好地利用和改良这些性状,需要深入解析这些性状的遗传基础。目前,关联分析是解析数量性状遗传基础的主要途径。  随着测序技术的飞速发展,标记数p远大于样本容量n的超高维标记小样本数据已成常态。这无疑加重了关联分析的计算压力。如何在有限的样本容量下快速准确地从海量标记中筛选出与数量性状显著关联的位点成为一项重大挑战。当前广泛应用的关联分析方法是基于多基因背景和群体结构控制的单位点全基因组扫描。这些方法不能同时估计所有标记效应,只能在群体结构与多基因背景控制下单独估计每个标记效应。这些估计值可能是有偏的。为解决这一问题,本研究利用奇异值分解、SCAD和经验Bayes估计、多位点遗传模型和似然比检验,提出了一种多位点全基因组关联分析新方法,通过三个Monte Carlo模拟试验和拟南芥开花时间相关性状分析,来证实新方法的有效性。主要结果如下:  1、新方法分为两步:1)潜在关联标记的选择。通过奇异值分解获得所有标记的效应值,效应值较大的标记为可能潜在关联标记,进一步用SCAD压缩估计选择出潜在关联标记;2)显著QTN(quantitative trait nucleotide)的鉴定。将潜在关联标记放入多位点模型中,用经验Bayes估计这些潜在关联标记效应,当效应绝对值大于10-5时用似然比检验鉴定其与性状的显著关联性。这种方法称为基于奇异值分解和SCAD估计(Singular value decomposition-SCAD screening plus empirical Bayes,S3-EB)的多位点关联分析方法。  2、通过三个Monte Carlo计算机模拟试验来验证S3-EB的有效性。在第一个模拟试验中,从199个拟南芥品系216130个SNP的实际关联群体中随机抽取10000个SNP作为模拟关联群体的基因型。在稀有等位基因频率等于0.3的6个SNP上设置了6个模拟QTNs,其遗传率分别设为0.1、0.05、0.05、0.15、0.05和0.05。群体平均数和误差方差均设置为10。通过模拟QTN基因型值和随机误差获得199个品系的模拟表型观察值,并重复1000次。用S3-EB、mrMLM、EMMA和FarmCPU四种方法分别分析每个模拟样本数据,结果表明:1)用上述四种方法检测6个模拟QTNs的平均功效分别为74.8、67.03、46.0和41.87(%),成对t检验表明:S3-EB的统计功效显著高于另外三种方法(P-值介于0.0036与0.0063之间);2)6个模拟QTNs的平均均方误差(mean squared error,MSE)分别为0.1064、0.0934、0.5432和0.2824,成对t检验表明:S3-EB的MSE显著低于EMMA(P-值等于0.015),但与mrMLM和FarmCPU无显著差异(P-值分别等于0.3199和0.1549);3)上述四种方法的计算时间分别为0.79、4.01、68.77和5.12小时;4)四种方法的假阳性率分别为0.0489、0.0167、0.0325和0.0178(%),处于同一数量级。  若在第一个模拟试验中分别添加多基因背景和上位性背景,以研究这些背景干扰对S3-EB的QTN检测功效和参数估计精度的影响。结果表明:这些结果与第一个模拟试验结果趋势一致。  综上所述,新方法通过奇异值分解,将运算维度由计算数十万计SNP标记效应个数降低为计算数干计样本容量效应数,快速获得同一模型下全部标记效应值,有利于潜在关联变量选择,提高了统计功效和参数估计精度,缩短了计算时间,使假阳性率与Bonferroni矫正方法处于同一量级,验证了新方法的有效性。  3、用上述四种方法分析了下载的199个拟南芥品系216130个SNP的开花时间相关性状FLC、FRI、FT-GH和FT-Field。结果表明:1)上述四种方法检测到与FLC显著关联标记数分别为15、21、0和6,计算时间分别为0.0083、0.0684、1.0767和0.0838小时;与FRI显著关联的标记数分别为6、8、33和5;与FT-GH显著关联的标记数分别为17、4、0和7;与FT-Field显著关联的标记数分别为17、24、0和9;2)建立数量性状表型与显著关联标记间的多元线性回归模型,FLC性状四种方法的BIC值分别为336、328.2、596.5和521.3;FRI的BIC值分别为163.5、156.7、322.3和211.6;FT-GH性状的BIC值分别为-321.2、-296.1、314.6和-465.0;FT-Field性状的BIC值分别为30.4、318.9、306.9和156.6。新方法BIC值处于最小或者次小,说明新方法是相对较优的;3)在上述关联标记±50kb范围内,上述四种方法分别检测到59、9、3和8个已报道的性状相关基因,其中39个仅被S3-EB方法检测到。这些结果也证实新方法的有效性。  为了便于推广应用该方法,在R环境下,基于附加包shiny,研制了S3-EB方法的应用程序,嵌入多位点关联分析软件包mrMLM,可在Windows、Mac和Linux系统下运行操作。
其他文献
光合作用机制和叶绿体发育相关研究是生命科学领域的热点问题,而叶色突变体是研究叶绿体形成和发育相关基因功能的重要材料。本实验利用玉米自然突变产生的携带黄化突变基因的YL1001为材料,对其叶色性状、叶绿体结构、叶绿素含量、光合特性和遗传特性等进行分析,并对黄化突变基因进行了定位研究。主要研究结果如下:1.YL1001材料野生型表型与黄化突变表型分离比符合3:1(野生型:突变型=229:83,X20.
水稻是谷类作物中对根际土壤盐分比较敏感的植物。盐胁迫引起的渗透胁迫、离子胁迫以及激素(乙烯)胁迫可抑制水稻生长及发育,而乙烯释放量增加又会影响水稻强势粒与弱势粒的发育。1-甲基环丙烯(1-MCP)可通过抑制乙烯与受体的结合降低植物乙烯释放量。目前1-MCP对盐胁迫下水稻生长特征及籽粒发育特性的影响尚未有研究报道。因此,本研究通过解析盐胁迫环境下水稻生理生化特征及相关蛋白表达,明确盐渍区水稻产量潜力
在高校英语教学中,英语翻译教学是十分广泛的,需要理论知识及实践同时进行,这样才能够对英文内容进行正确的分析。这就需要教师在教学中对学生制定合理的方案,实现情景教学,活跃学
高考制度恢复以后,高校是学子们向往的殿堂。从普通中学到高校,不仅是对学生学习能力的肯定,也是学生未来发展的分水岭。因此,高校在学生的发展中肩负了重大的使命。教书育人是所
近年来,高校实验室安全事故频发,直接影响到学校的人才培养、发展学科知识、服务社会等职能的实现,对社会的和谐稳定造成了非常不利的影响。实验室安全管理在高校的日常管理工作
课程思政是融合型教学模式,与高职英语课程结合也应从传统教法中找寻两者的融合点,发掘创新教学的渠道。文章首先归纳了课程思政的内涵,其次从“泛引优质资源创设英语思政情境”
随着融合教育的不断发展,学前融合教育的实践也在一步步深入。据调查显示我国大约有170万名0~6岁的特殊儿童无法接受学前教育,同时全国230万名幼儿教师大多数没有接受过特殊儿