论文部分内容阅读
全基因组序列数据包括全基因组变异,有利于帮助识别数量性状或疾病的因果变异,并加速畜禽育种。大群体高深度的全基因组测序成本昂贵,特别是对于家畜来说。一种策略是SNP芯片数据填充至序列数据。该策略使用SNP芯片对目标群体进行基因分型,然后基于高深度测序的参考面板将SNP芯片数据填充至序列数据。这种策略在之前的研究中使用较多。低深度测序已被提出作为另一种经济高效的基因分型方法,用于获得全基因组变异。基因型填充对于这种方法至关重要。人们已经提出几种低深度测序数据填充方法,并成功应用到人和其它物种中。但是,关于这些方法在家畜上的报道还很少。在本研究中,首先评估了不同获得序列数据策略中基因型填充方法的表现。另外,为了提高鉴定影响奶牛产奶性状相关变异的功效,利用填充的全基因组序列数据基于随机回归模型对中国荷斯坦奶牛群体的产奶性状进行纵向全基因组关联分析。具体研究结果如下:(1)本研究将荷斯坦牛的不同中密度SNP芯片数据直接填充至序列数据,评估了三种填充方法(Beagle v5.1、IMPUTE5 v1.1.3和Minimac4 v1.0.2)的表现。结果表明,Beagle5与IMPUTE5和Minimac4相比是将SNP芯片数据填充至序列数据的最佳填充方法,对于50Kv1和50Kv2芯片,填充准确性超过0.8;对于80K、100K和150K芯片,填充准确性超过0.9。(2)本研究利用荷斯坦牛的低深度测序数据(测序深度1×或更低)评估了六种填充方法,包括Beagle v4.1、Gene Imp v1.3、GLIMPSE v1.1.0、QUILT v1.0.0、Reveel和STITCH v1.6.5。比较了测序深度、样本大小、参考面板样本大小和最小等位基因频率对填充准确性的影响。结果表明Reveel不适合我们的数据,因为它的填充准确性非常低。总体而言,Beagle与Gene Imp、GLIMPSE、QUILT和STITCH相比没有优势,尽管它在大多数情况下填充准确性是可以接受的(超过0.9)。Gene Imp、GLIMPSE、QUILT和STITCH在不同情况下各有优势。当有大规模的高深度测序群体作为参考面板时,Gene Imp和QUILT对测序深度和样本大小非常稳定,即使对于测序深度非常低(0.1×)和样本非常小(100)的数据,也得到接近(Gene Imp)或高于(QUILT)0.95的填充准确性。当测序深度大于0.1×时,GLIMPSE表现非常好。对于STITCH,无论有无参考面板,当测序深度大于0.4×和样本大于400时,它都能得到最高的准确性。对于填充耗时,Beagle的速度最慢,花费的时间比其它方法多得多。其次是QUILT,比Beagle快约20~30%。Gene Imp是最快的,只用了Beagle约五分之一的时间。GLIMPSE的时间几乎是Gene Imp的两倍。STITCH和STITCH_REF的运行时间介于GLIMPSE和Gene Imp之间。总的来说,在没有参考面板的情况下,考虑到填充准确性、发现SNPs数目和填充耗时,STITCH+Beagle是最佳策略;QUILT是有参考面板时的最佳方法。(3)本研究使用填充序列数据对中国荷斯坦牛产奶性状(产奶量、乳脂率和乳蛋白率)进行纵向全基因组关联分析。首先使用Beagle5将6,470头牛的已有的SNP芯片数据填充为序列数据。填充的基因型数据经过滤后,得到6,470个个体的11,153,375个SNPs位点。利用这些SNPs位点,基于随机回归模型对产奶量、乳脂率和乳蛋白率进行全基因组关联分析,共发现了130个显著关联的QTL区域。本研究重点关注了其中的49个QTL区域,并使用log P drop的方法估计每个QTL区域的95%置信区间。在这些置信区中,共发现581个基因,其中与产奶量相关的39个、与乳脂率相关的65个、与乳蛋白率相关的495个。有2个基因(DGAT1和HSF1)与3个性状均相关,另有5个基因(ADCK5、SLC52A2、FBXL6、TMEM249、SCRT1)同时与产奶量和乳蛋白率相关。此外,我们重点关注了只覆盖或重叠一个基因或者包含特别显著top SNP的QTL的置信区间。在这样的区间内发现了28个候选基因。这些基因包括以前研究中多次报道的影响产奶性状的关键基因(DGAT1、HSF1、MGST1、GHR、ABCG2和CSN1S1)和一些本研究中发现有望成为产奶性状的新的候选基因(CCSER1、CUX2、SNTB1、RGS7、OSR2和STK3)。总的来说,我们的研究不仅为影响产奶性状的候选基因提供了新的见解,而且为利用序列数据基于随机回归模型的纵向全基因组关联分析提供了一般性的分析框架。