论文部分内容阅读
栽培草莓(Fragaria xananassa)属于多年生草本植物,因果实营养丰富,色泽鲜艳,深受消费者青睐。草莓果实属于假果,鲜嫩多汁的果肉来自于花托,而覆盖在花托表面的瘦果才是植物学意义上的果实。与其它蔷薇科植物如苹果和桃不同,草莓是非呼吸跃变型果实。栽培草莓是八倍体(2n=8 ×=56),来自4个不同的二倍体祖先种,因此其基因组非常复杂。二倍体森林草莓Fragaria vesca(F.vesca)是栽培草莓的祖先种之一,在北半球分布最广。森林草莓基因组(~240Mb)相对较小、植株矮小、生命周期短、能够进行高效的遗传转化,是研究栽培草莓和非呼吸跃变型果实的模式材料。本研究利用二代Illumina和三代SMRT测序技术,系统挖掘了森林草莓中的可变剪切基因,分析了草莓花与果实发育过程中可变剪切的动态变化,并对两个版本的森林草莓基因组进行了重注释,显著提升了森林草莓基因组注释的准确度和完整度。主要结果如下:1.在可变剪切分析中,三代比二代测序技术具有显著的优越性本研究采用PacBio公司的单分子实时测序技术(SMRT)及Illumina二代测序技术对森林草莓果实(花托)的可变剪切进行了系统挖掘和比较。通过SMRT鉴定到33,236个全长转录本,覆盖草莓基因组v2.0.a1中的10,957个基因。我们发现虽然SMRT的测序深度比Illumina低,但SMRT可检测到57.67%的多外显子基因发生可变剪切,而Illumina只检测到33.48%的多外显子基因发生可变剪切,说明SMRT能更有效地鉴定可变剪切。2.森林草莓可变剪切图谱的建立和果实发育过程中可变剪切的变化为了挖掘草莓果实发育过程中的可变剪切,收集先前的74个转录组数据,包括果实早期五个发育阶段的不同部分,总数据量达到19亿个读段。通过分析发现共有66.43%的多外显子基因发生可变剪切,其中内含子保留(IR)占比最高,随后分别为可变受体(AA)、可变供体(AD)和外显子跳跃(ES)。此外,还发现有2,453个基因由于可变剪切导致结构域的获得或缺失。通过挖掘果实发育过程中可变剪切的变化,发现草莓受精后的果实与受精前相比,内含子保留(IR)显著降低,而可变受体(AA)显著增加。KEGG富集分析表明IR显著降低的基因中剪切体途径基因显著富集,GO富集分析表明这些基因中一些重要的代谢基因显著富集。此外,这些富集基因在果实发育第一阶段的表达水平较高,从第二时期开始即大幅度降低,表明IR这种剪切方式可能是授粉受精后果实起始的重要调控机制。3.森林草莓V2基因组重注释在转录组数据分析中,发现森林草莓基因组注释准确性差,而且只包含了蛋白编码基因的编码序列。为了提高森林草莓基因组的注释质量,优化了基因组注释流程,结合PacBio全长转录组和RNA-seq数据,使用MAKER2,AUGUSTUS和PASA等软件进行基因组注释,同时利用Apollo进行人工校正。我们首先对森林草莓V2基因组进行重注释,新注释被命名为v2.0.a2。在新版注释中,被调整或新增的基因有13,168个,7,370个基因具有可变剪切转录本,18,641个基因的5’和/或3’端具有UTR。BUSCO值由88.9%增加到95.7%。此外,增加了 1,938个lncRNA,171 个 miRNA 和 51,714 个小 RNA 簇。4.森林草莓V4基因组重注释2018年,森林草莓V4基因组面世,因采用PacBio SMRT测序数据进行组装,其组装质量大幅度提高,与V2相比增加了 24.96Mb序列,基因数目却减少了数千个。另外,旧版森林草莓基因组均采用geneXXXXX命名基因,而V4基因组采用新的基因命名方式FvH4_XgXXXXX。为了改善新版基因组注释质量,建立了新注释v4.0.a2。在新注释中,基因数量由28,588个增加到34,007个,BUSCO评估完整度高达98.1%;调整了 8,342个现有基因的基因模型,添加了 9,029个新基因,10,176个基因能够产生可变剪切本。利用前期发表的大量转录组数据,建立所有基因在46种不同组织中的表达谱,方便读者查询。此外,鉴定了 84个已知miRNA基因和63个草莓特有miRNA基因,并预测了它们的靶基因。综上所述,我们的研究表明SMRT测序在识别可变剪切方面有非常大的优势,同时为后期对不同剪切本的功能研究提供了丰富的资源。此外,可变剪切不同类型的转变可能有助于果实形成时基因表达的快速变化。新注释在基因预测的准确性和完整性方面得到了显著改善,有利于草莓中的基因功能研究以及蔷薇科其他园艺植物的比较基因组分析。