论文部分内容阅读
棉花的驯化经历了从多年生乔木到一年生栽培灌木的过程。两个四倍体栽培棉种,海岛棉(G.barbadense)和陆地棉(G.hirsutum),在四倍体棉种形成以后不断被驯化并且在世界范围内广泛种植。关于海岛棉和陆地棉的驯化研究一直争论不断。尽管早期有不同分子标记和同工酶的研究,但是由于数据有限,结果比较片面。重测序的研究已经应用于多种作物,但是目前为止,还没有对四倍体棉花栽培种全基因组水平上的遗传多样性研究。本研究中,我们对147个不同棉花材料,包括野生近亲,地方品种和现代品种进行了大约5倍覆盖的全基因组重测序,得到约1.8TB数据,通过锚定到陆地棉参考基因组进行分析。并辅助海岛棉新海21进行基因组验证,数据缺失率只有6.8%,而且,我们随机选择了 68个SNP通过PCR的方法在7个陆地棉品种和4个海岛棉品种中进行了验证,结果显示,我们的准确率达到95%,本研究数据的高质量和测序覆盖倍数足以用来进行后续的进化和群体遗传分析。通过全基因组重测序我们总共挖掘到16,377,749非单体型SNP(至少在两个品种中出现的SNP),144,662InDels(lbp-8kb)。这些变异均匀分布在棉花26条染色体上,平均SNP密度是8.5 SNPs/kb,其中At和Dt之间分别是9.2SNPs/kb和7.4SNPs/kb,At略高于Dt。为了分析147个品种每个SNP位点的等位基因频率,共鉴定了 7,993,856共有SNPs(common SNPs)(等位基因频率>5%),包括,种内SNPs海岛棉3,770,221和陆地棉3,203,112,以及2,752,128(~34.4%)固定SNPs(等位基因频率在海岛棉或者陆地棉中>95%,而在其他物种中<5%)。这些全基因组内的SNPs认为就是物种特异的SNP。海岛棉和陆地棉的遗传多样性高,两者之间有明显的遗传分化。通常情况下,遗传多样性可以用SNP频率来量化。本研究中共鉴定44,250固定SNP(nearly-fixed cSNPs)在海岛棉和陆地棉之间高度分化。为了检测群体的遗传多样性,我们分别计算了 26条染色体的遗传多样性群体分化指数FST,发现海岛棉和陆地棉在全基因组水平上存在较强的遗传分化,A和D亚组的群体分化指数FST分别是0.63和0.65,大于水稻籼稻和粳稻之间的分化(FST=0.55)(Huang et al.,2010)。海岛棉和陆地棉是独立驯化的。用全基因组的所有SNP用于构建四倍体棉花的群体N-J进化树。进化树主要分化成2个主要的分枝,陆地棉分枝(包括85个)海岛棉分枝(包括52个,其中包括黄褐棉,可能是一个驯化过的地方种)。通过分析四倍体棉花的群体结构发现,当K(模拟的群体数量)=2时,海岛棉和陆地棉被分为明显的两组。当K=3时,分为三个明显的分组,海岛棉、陆地棉和陆地棉半野生种。这个模拟结果与主成分分析的结果一致,也与进化树的分析结果一致。从这三个方面,我们证明了海岛棉和陆地棉的遗传分化大,为海岛棉和陆地棉的独立驯化提供了基因组证据。另外,当我们把陆地棉鉴定的109个选择性区域,对应到海岛棉的同源区域发现,这些区域在海岛棉中并不受到选择,这也说明的海岛棉和陆地棉是独立驯化的。海岛棉和陆地棉之间存在不对称的基因组渐渗现象,本研究利用“3-群体检测法”(Myles et al.,2010;Reich et al.,2009)进行全基因组检测,成功追踪到海岛棉和陆地棉之间存在的渐渗,大约占了基因组的0.2%,偏向于陆地棉到海岛棉的渐渗,表明陆地棉可能比海岛棉包含更多的与环境适应性相关的遗传多样性。通过分析还发现11个广泛的渐渗区域,这些区域与纤维品质相关的QTL有一定的重合,可能对棉花的环境适应性以及纤维品质和产量有一定的贡献。基因组证据表明陆地棉半野生种到海岛棉的渐渗主要发生在海岛棉的北移过程中。这种渐渗可能大大改善了海岛型海岛棉的纤维品质和光周期特性,从而提高了海岛棉的适应性。而且,通过海岛棉和陆地棉基因组渐渗的分析,发现海岛棉的驯化始于南美洲西北部的秘鲁和巴西,现在的海岛棉主要有埃及型、Pima型和中亚型三种类型。陆地棉的驯化与选择。陆地棉栽培种的遗传多样性较低,在驯化过程中有非常大的遗传瓶颈,多样性只有半野生种的34.2%(A和D亚组分别32.4%和35.0%)。通过对陆地棉栽培种和半野生种全基因组范围的比较,我们发现109个的选择性区域,约占基因组的3.4%。,其中选择信号较高或中度(πrace/πcultivar值从15.4到39.6)的12个区域,At和Dt是受到共同选择的。结合35个不同组织器官的转录组测序,我们发现,这些选择性区域内有76个纤维发育和115个种子萌发相关的基因相对高表达。其中,有两个选择信号较强的区域(πrace/πcultivar=100.0)分别在A6和D11染色体上。结合大量的QTL数据发现,D11上的选择性区域内主要是控制纤维长度的QTL,A6染色体上的选择性区域比较大(21.6 Mb),主要是控制纤维长度和衣分的QTL。这些结果为棉花遗传改良和研究多倍体作物的进化和驯化奠定了分子基础。多倍体化或基因组加倍是植物进化的重要动力。异源四倍体棉花是研究植物多倍化和基因进化的重要模式作物。基因组加倍及复制事件是植物进化的重要动力。多倍体形成以后,大量重叠基因(又叫部分同源基因)的功能和进化研究还不是很透彻,总体上,复制后的基因主要有三种命运:无功能化(假基因化)、亚功能化和新功能化。在产量相关的杂种优势利用研究中,我们克隆了一个在杂种F1(湘杂棉2号)以及母本(中棉所12号)、父本(荆8891)差异表达的ERF基因,其序列全长与已报道的GhERF1(Qiao et al.,2008)有很高的相似性。通过染色体定位发现,这两个基因是一对四倍体棉花的部分同源基因,属于AP2/EREBP基因家族的ERF亚家族B3亚组,分别定位于A07和D07染色体上(陆可钰硕士学位论文),命名两个基因分别为 GhERF1-7A/7D(GhERF1,GhERF1-7D)而且,GhERF1-7A 基因定位到一个与棉花铃数相关的QTL(陆可钰)。研究结果发现,这一对部分同源基因中的GhERF1-7A基因在四倍体棉花中经历了重叠基因的三种命运类型:母本中棉所12号的基因无功能化,在组织器官和非生物逆境中的表达亚功能化,提高拟南芥单株果荚数目的新功能化。为研究多倍体植物重叠基因的功能分化提供了很好的分子证据。GhERF1-7A基因在母本中棉所12号功能失活。通过克隆中棉所12号的GhERF1-7A基因序列,我们发现在基因的ORF第121位有一个碱基“A”的插入,导致移码突变而提前终止。为了确认二倍体是否有突变,我们分别克隆了二倍体亚洲棉和雷蒙德氏棉的ERF1基因序列发现,二倍体并没有移码突变。因此,我们认为GhERF1-7A基因的功能失活变异发生在异源四倍体棉花形成以后,而且在棉花的长期驯化中不断受到选择。GhERF1-7A基因在不同的组织器官和逆境诱导中差异表达。GhERF1-7D在棉花的非生物逆境响应中起主要作用,而GhERF1-7A在四倍体棉花形成以后发生了一定程度的亚功能化和假基因化变异。而且,部分保留下来的GhERF1-7A基因还获得了新的功能,可能对棉花的单株铃数增加起着重要的作用。在拟南芥中过表达GhERF1-7A可以显著增加拟南芥的单株果荚数和种子产量。另外,GhERF1-7D基因可以改善棉花的非生物逆境抗性,GhERF1-7A可以作为一个改良作物产量的优异候选基因,为棉花的广适、高产育种提供基因资源;而且,GhERF1-7A作为一对多倍体中的部分同源基因成员之一,在陆地棉半野生种和栽培种中序列存在变异,我们对524个棉花品种,包括191个半野生棉和333个栽培种进行了GhERF 基因的测序,发现GhERF1-7A基因的序列几乎没有变异,很保守,而GhERF1-7A基因的移码突变现象普遍,在陆地棉的基因失活比例只有25.5%(333个中有85个有移码突变),而半野生棉中比例高达52.9%(191个中有101个有移码突变),表明GhERF1-7D基因在早期陆地棉中经历了大规模的假基因化。现代栽培种的驯化鉴于人们对产量的追求使得GhERF1-7A基因移码突变的比例逐渐逐渐淘汰而下降。GhERF1-7A基因的序列和功能变异为研究多倍体部分同源基因的功能进化和棉花驯化提供了重要例证。AP2/EREBP转录因子基因家族是植物中最保守、最大的基因家族之一。在植物的生长发育和非生物逆境中起着重要作用。在二倍体的雷蒙德氏棉和四倍体的陆地棉TM-1中分别有269个和504个AP2/EREBP基因。雷蒙德氏棉的269个基因主要可以划分为4个亚家族:包含两个AP2结构域的AP2亚家族、包含一个AP2结构域和一个B3结构域的RAV亚家族,以及只包含一个AP2结构域的DREB和ERF亚家族,另外还有4个基因作为外类群。AP2/EREBP家族的基因结构域相对保守,基因结构简单。这些基因在所有染色体上都有分布,但是分布不均匀,包含大量的重复基因。本研究中共分析得到73个串联重复基因和221对片段重复基因。这也是AP2/EREBP基因家族基扩张的重要力量。其中,AP2/EREBP基因家族的串联重复主要来自ERF亚家族B3亚组。通过RNA-seq数据分析发现,陆地棉TM-1中有504个基因至少在一个组织中表达。另外,逆境诱导的基因表达分析发现,大约68%的DREB和ERF基因受到逆境诱导表达。其中,132个基因受到冷诱导,63个基因受到干旱诱导,还有94个基因受到高温诱导。进一步,我们选取了 13个GnDREB基因和15个GhERF基因进行了 qRT-PCR验证,证实这些基因缺失受到干旱或者低温诱导。另外,陆地棉TM-1的111个串联重复基因中,有53个基因是不表达的。还有,某些部分同源基因在进化过程中出现功能冗余或者功能分化。而且A和D亚组的同源基因表现出偏好表达。我们通过全基因组内范围的分析,为棉花AP2/EREBP家族基因在棉花进化过程中的分子特征、基因扩张和功能分化提供了重要信息,为棉花改良提供了优良的候选基因。