论文部分内容阅读
水牛是一种大型的驯化哺乳动物,分为沼泽型水牛和河流型水牛。沼泽型水牛主要分布在东亚和东南亚,几千年来一直作为稻田中主要的劳动力,拥有强壮的身体、较长使用年限与温顺的性格。河流型水牛主要分布在南亚,其他地区如欧洲、美洲也有养殖,是重要的奶肉品种,生产的水牛奶营养价值大大高与黄牛奶。两种水牛截然不同的特性是千百年来人们长期选育的结果,然而到底是对哪些基因的选择造成了这样不同的特性目前研究还相当缺乏。另一方面这两种水牛没有明显的生殖隔离,但无论是体型、习性还是分布区域都有很大不同,进化上系统发生关系一直存有争议,主要争论在于它们的分化时间和驯化地点,解决这个问题有助于更深刻理解水牛进化。随着农业机械化的发展,沼泽型水牛稻田役用地位降低,如何通过育种对其进行品种改良越来越重要。用基因组学研究来解决驯化物种的育种和进化问题是不可或缺的方法,近年在NCBI上也相继推出多个版本河流型水牛参考基因组序列,但是没有沼泽型水牛基因组序列,并且已发表的组装质量有限,无法满足沼泽型水牛和河流型水牛更深层次的细致分析,本文通过对两种水牛全基因组测序,构建染色体级别高质量基因,运用比较基因组学手段,找到两种水牛基因组变异以及这些变异可能的表型效果。论文主要成果如下:
1、沼泽型水牛和河流型水牛全基因组测序与参考基因组构建。利用Pacbio测序平台获得沼泽型水牛(~50X)/河流型水牛(~20X)三代长reads数据,纯三代组装得到~2.6Gb基因组,contig的N50为8.8/3.1Mb,contig的N50长度已经超过之前黄牛基因组组装UMD_3.1.1和Btau_5.0.1版本。结合Bionano光学图谱和Hi-C互作数据对contig进一步延伸,得到两种水牛染色体级别scaffold,scaffold的N50为117/116Mb,染色体数目和大小与之前研究估计一致。BUSCO评估显示基因组完整性为96.8%/96.0%。通过共线性分析发现水牛最大的1号染色体是由河流型水牛的4号染色体和9号染色体融合形成的,而河流型水牛的4号染色体是由黄牛5号和29号染色体融合而成。
2、基因组注释。沼泽型水牛和河流型水牛分别注释19,279/20,202个蛋白质编码基因,基因平均长度为43,778/39,912bp,编码区平均长度为1,662/1,408bp,每个基因内含子平均长度为4,581/4,380bp,超过90%的基因都有功能注释。两种水牛基因组的46%为重复序列,短散在重复序列(SINE)、长散在重复序列(SINE)和长末端重复序列(LTR)分别占基因组12%、28%和5%,在两种水牛和黄牛中比例相同,说明水牛的这些重复序列没有特异性变化。
3、基因家族分析。通过比较两种水牛和8种哺乳动物的直系同源基因以及旁系同源基因后,发现水牛属显著扩张的基因家族中一共有850个基因,GO富集与能量代谢、转运和热应激相关。在这些基因中重点关注了ABCC家族和HSP90家族基因,ABCC家族的扩张对水牛ATP功能、肌肉发育和神经生成有影响。在HSP90家族中,HSP90AA和HSP90AB在两种水牛中都发生的复制扩张,可能与水牛的热适应有关。沼泽型水牛特有扩张包含229个基因,GO富集在精胺生物合成过程,精胺生物合成的关键酶AM D1基因发生了复制,可能会对沼泽型水牛肌肉发育有重要影响。河流型水牛特有扩张包含373个基因,GO富集在离子通道和Eph受体家族相关通路。4、进化分析。通过计算沼泽型水牛和河流型水牛之间单拷贝基因的Ks分布,发现两种水牛的的分化时间为113万年,远高于人类的驯化历史,所以两种水牛是独立起源的。用PSMC分析计算两种水牛的历史群体大小,发现在100万年前两种水牛的有效群体大小开始分离,距今100万年时处于Xixiabangma冰期,冰期时海平面下降,陆地面积增加,南亚与东南亚之间形成开阔陆地走廊,这个时候南亚的水牛祖先可能迁徙到东南亚成为沼泽型水牛的祖先。正选择基因研究中发现了VPS16和CGREF1,可能与水牛的抗病和肌肉生长有关。
1、沼泽型水牛和河流型水牛全基因组测序与参考基因组构建。利用Pacbio测序平台获得沼泽型水牛(~50X)/河流型水牛(~20X)三代长reads数据,纯三代组装得到~2.6Gb基因组,contig的N50为8.8/3.1Mb,contig的N50长度已经超过之前黄牛基因组组装UMD_3.1.1和Btau_5.0.1版本。结合Bionano光学图谱和Hi-C互作数据对contig进一步延伸,得到两种水牛染色体级别scaffold,scaffold的N50为117/116Mb,染色体数目和大小与之前研究估计一致。BUSCO评估显示基因组完整性为96.8%/96.0%。通过共线性分析发现水牛最大的1号染色体是由河流型水牛的4号染色体和9号染色体融合形成的,而河流型水牛的4号染色体是由黄牛5号和29号染色体融合而成。
2、基因组注释。沼泽型水牛和河流型水牛分别注释19,279/20,202个蛋白质编码基因,基因平均长度为43,778/39,912bp,编码区平均长度为1,662/1,408bp,每个基因内含子平均长度为4,581/4,380bp,超过90%的基因都有功能注释。两种水牛基因组的46%为重复序列,短散在重复序列(SINE)、长散在重复序列(SINE)和长末端重复序列(LTR)分别占基因组12%、28%和5%,在两种水牛和黄牛中比例相同,说明水牛的这些重复序列没有特异性变化。
3、基因家族分析。通过比较两种水牛和8种哺乳动物的直系同源基因以及旁系同源基因后,发现水牛属显著扩张的基因家族中一共有850个基因,GO富集与能量代谢、转运和热应激相关。在这些基因中重点关注了ABCC家族和HSP90家族基因,ABCC家族的扩张对水牛ATP功能、肌肉发育和神经生成有影响。在HSP90家族中,HSP90AA和HSP90AB在两种水牛中都发生的复制扩张,可能与水牛的热适应有关。沼泽型水牛特有扩张包含229个基因,GO富集在精胺生物合成过程,精胺生物合成的关键酶AM D1基因发生了复制,可能会对沼泽型水牛肌肉发育有重要影响。河流型水牛特有扩张包含373个基因,GO富集在离子通道和Eph受体家族相关通路。4、进化分析。通过计算沼泽型水牛和河流型水牛之间单拷贝基因的Ks分布,发现两种水牛的的分化时间为113万年,远高于人类的驯化历史,所以两种水牛是独立起源的。用PSMC分析计算两种水牛的历史群体大小,发现在100万年前两种水牛的有效群体大小开始分离,距今100万年时处于Xixiabangma冰期,冰期时海平面下降,陆地面积增加,南亚与东南亚之间形成开阔陆地走廊,这个时候南亚的水牛祖先可能迁徙到东南亚成为沼泽型水牛的祖先。正选择基因研究中发现了VPS16和CGREF1,可能与水牛的抗病和肌肉生长有关。