论文部分内容阅读
产奶性状是奶牛生产中最重要的经济性状,提高牛奶产量和质量是保障奶业生产效益、稳定“三农”基本盘的重要途径。本研究以江苏地区中国荷斯坦牛为研究对象,开展了遗传参数估计、全基因组关联分析、拷贝数变异分析、候选基因验证和基因组预测等一系列较为深入的统计遗传学与分子遗传学研究。首先,使用随机回归测定日模型对奶牛的5个产奶性状(产奶量、乳脂率、乳脂量、乳蛋白率和乳蛋白量)进行了遗传参数估计;而后,利用全基因组关联分析(A genome-wide association study,GWAS)和拷贝数变异(Copy number variation,CNV)分析等策略开展奶牛头胎产奶性状数量遗传基因座(Quantitative trait loci,QTL)的定位研究;接着,我们挑选了 GWAS和CNV结果中影响乳脂性状的候选基因(SIRT2),并在细胞水平验证了 microRNA-212(miR-212)和SIRT2在牛乳腺上皮细胞中调节脂质代谢的机制;另外我们将芯片数据进行填充,研究了在芯片数据中加入利用GWAS技术从填充的全基因组测序数据(Whole-genome sequencing,WGS)中挑选的单核苷酸多态性位点(single nucleotide polymorphism,SNP)对基因组预测准确性的影响;最后,我们使用了三种不同的单倍型构建策略,探究将SNP数据转化为单倍型变量对基因组预测准确性的影响。研究结果如下:(1)基于随机回归测定日模型,发现江苏地区中国荷斯坦牛产奶性状前三个胎次的总遗传力范围为0.271-0.342,属于中等偏低遗传力性状。奶牛产奶性状之间存在显著的表型相关(p<0.05),其中前三个胎次的总表型相关范围为-0.423-0.945,总遗传相关范围为-0.625-0.938。奶牛产奶性状在不同胎次之间的遗传相关性较高(0.552-0.989),但是产奶性状的遗传方差及遗传力在不同胎次泌乳期内的变化趋势具有较大差异,其中第一胎次的遗传方差和遗传力在整个泌乳期较第二、三胎次稍大,且较为稳定。建议对奶牛进行遗传评估时需考虑前三个胎次的所有表型信息及环境因素,或将评估重点放在第一胎次,以提高对产奶性状的遗传评估准确性,进而加快江苏地区中国荷斯坦牛的选育水平。(2)利用GWAS和CNV等分析策略,基于GGPBovine 100K芯片开展了荷斯坦牛产奶性状QTLs的挖掘研究。检测到16个SNPs与这些产奶性状显著相关,并挖掘部分可能在产奶性状遗传变异中起关键作用的QTLs和候选基因,其中包括 DGAT1、SIRT2、LDLR、HSF1、MAF1、PRMT6、GLUD1、PYCR3 和PLA2G4A等,这些基因被鉴定为与奶牛产奶性状相关的候选基因,它们主要参与氨基酸及脂质的合成与代谢过程、蛋白质成熟过程、转录过程的调控和大分子代谢过程的调控。此外,在984头荷斯坦牛的29条常染色体中共识别出1731个CNVs,合并为236个CNVRs。统计分析显示共有19个CNVRs与产奶性状显著相关,其中CNVR 124(位于14号染色体146715 bp至891340 bp)和CNVR 161(位于18号染色体48610254 bp至48869465 bp)分别包含了 GWAS筛选出的两个显著性SNPs,这两个区域可作为奶牛产奶性状相关的重点候选区域。(3)采用双荧光素酶报告基因检测、qRT-PCR、western blot、甘油三酯(triacylglycerol,TAG)测定、油红O染色等试验方法对GWAS和CNV挑选的影响奶牛乳脂性状的候选基因-SIRT2,及可能靶向SIRT2的三个miRNAs(miR-212、miR-375和miR-655)的分子功能进行了研究。双荧光酶报告基因实验证实了 miR-212可以靶向SIRT2基因的3’UTR区域,并调控SIRT2基因的表达,但miR-375与miR-655与SIRT2基因没有靶向关系;qRT-PCR和western blot的结果表明miR-212与SIRT2的表达水平呈现负相关;qRT-PCR、甘油三酯(triacylglycerol,TAG)测定、油红O染色等结果表明miR-212与SIRT2基因的调控关系可以影响牛乳腺上皮细胞脂质合成相关基因的表达及脂质生成。本研究证实了 miR-212与SIRT2基因的靶向调控关系、miR-375和miR-655与SIRT2基因不存在靶向调控关系,并证明了 miR-212可以通过靶向调控SIRT2基因的表达参与牛乳腺上皮细胞的脂质代谢过程。miR-212与SIRT2的靶向调节关系可能是影响牛乳中乳脂代谢过程的潜在因素。(4)基于芯片填充技术将芯片数据填充至WGS水平,利用Fixed and random model Circulating Probability Unification(FarmCPU)和Mixed linear model(MLM)两种GWAS分析方法在不同阈值下筛选显著的SNPs,研究筛选的SNPs与芯片数据结合对基因组预测的影响。结果表明,将芯片数据填充至WGS水平并不能显著提高基因组预测的准确性(p<0.05);在我们研究的性状中,除乳蛋白量外,利用贝叶斯四分布混合模型对性状的评估准确性要高于利用Genomic best linear unbiased prediction(GBLUP)进行的育种值评估,提高范围在0.18%-1.60%;与原始的芯片数据相比,利用GWAS技术从填充的WGS数据中挑选SNPs合并入芯片的方法可以在一定程度上提升奶牛产奶性状(乳蛋白量除外)、体细胞评分和体高等性状的基因组预测准确性,提高范围在0.16%-6.94%,其中对乳脂率的评估准确性提升幅度最大(6.94%),对乳蛋白率的提升幅度最小(0.16%);研究还发现,利用MLM方法,在以p值为0.0001和0.001作为阈值挑选的SNP数据集(<5000个)与芯片数据合并,并使用基于双遗传组分假设的GBLUP或基于单遗传组分假设的贝叶斯四分布混合模型,基因组预测的准确性和无偏性较好。该研究不仅证实了从填充的WGS数据中挑选SNPs可以提高基因组预测的准确性,也是GWAS与基因组选择(Genomic selection,GS)结合的一种尝试。(5)按照连锁不平衡(Linkagedisequilibrium,LD)大小、固定基因组片段长度和固定SNP数量去定义单倍型区块(haploblock),将芯片数据以及填充过程中的高密度SNP数据和WGS数据按照定义的haploblocks转化成单倍型变量,研究不同芯片密度、不同haploblocks定义方式将SNPs转化为单倍型变量对基因组预测的影响。结果表明,对于填充的WGS数据,将SNPs转换为单倍型变量的方式可以有效减少基因组预测的变量数,同时将WGS数据按照不同的单倍型构建策略转化为单倍型变量,基因组预测的稳定性好于同策略下100K芯片和高密度SNP数据转化的单倍型变量;对于不同性状而言,将SNP数据转化单倍型变量进行基因组预测时,确定haploblocks的最佳构建方式和阈值非常重要;对于100K数据而言,根据LD(r2)在0.3至0.5范围去定义haploblocks并将SNP数据转化成单倍型变量,性状基因组预测的准确性有所提高;根据固定长度和固定SNP数量定义的haploblocks进而将SNP数据转化成单倍型变量,基因组预测可能会面临不稳定或准确性低等问题。研究证明了将SNP数据转换为单倍型数据对于提高基因组预测准确性、降低WGS数据量大小的可行性,但是最佳的haploblocks的定义方法及阈值需要根据性状特征确定。综上所述,本研究揭示了江苏地区中国荷斯坦牛产奶性状在泌乳期内的遗传变化,挖掘了一批影响产奶性状的候选基因和QTLs,验证了 miR-212与SIRT2的靶向调控对乳腺上皮细胞乳脂合成的影响,探究了 GWAS技术和单倍型构建技术在基因组预测中的应用。本研究结果将对奶牛遗传评估方法的改进和产奶性状的分子调控解析做出理论贡献,同时为江苏地区奶牛遗传评估体系的建立奠定基础。