论文部分内容阅读
三代转录组测序Iso-Seq(Isoform Sequencing)是近些年来新兴的转录组测序方式,其相对于二代测序技术最大优势是读段长,可以在不组装的前提下表征整个转录组。本研究基于三代转录组测序Iso-Seq完成了两项工作,一项是构建一个植物全长转录本数据库,另一项是结合其他组学测序数据对水稻杂种测序数据进行分型。主要研究内容如下:1.构建植物全长转录本数据库PISO(Plant ISOform sequencing database)本课题共收集了19种植物的Iso-Seq数据,以建立植物全长转录本数据库。考虑到参考基因组和倍性的存在,对19个物种使用了三套流程完成了转录本识别,新基因发现、可变剪切(Alternative Splicing,AS)事件识别和选择性多聚腺苷化(Alternative Polyadenylation,APA)事件识别。基于处理后的这些数据,构建了植物全长转录本数据库PISO。PISO一共获得了1,391,165个转录本,50,803个新基因位点,878,057个AS事件和81,416个APA事件。在此基础上构建了转录本浏览器和可变剪切搜索,可用于对处理后数据的检索。除此之外,基于全长转录组配置了四个实用的工具,包括功能搜索、BLAST、Full-length Match和GBrowse。这些工具帮助用户从注释信息、序列信息和基因组位置上定位全长转录本。总而言之,通过收集和处理已经报道的植物Iso-Seq数据构建了一个植物全长转录本综合数据库。2.水稻杂种多组学测序数据分型在这项研究中,我们开发了一套基于两个亲本基因组的杂种测序数据分型流程。通过该流程,我们对杂种的Iso-Seq,RNA-Seq和全基因组亚硫酸氢盐测序(WGBS)数据进行了分型。相比RNA-Seq数据分型,Iso-Seq数据可以分离完整的基因结构,在分离数据的比例上显著高于RNA-Seq数据。此外,通过分型比较了可变剪切,等位基因表达和DNA甲基化程度在亲本和子代之间以及子代等位基因之间的差异。同时通过构建等位基因共表达网络,探讨了杂种等位基因的互作关系。研究发现在亲本和子代亲本型之间表达的差异暗示了一个在不同组织条件下反式调控的偏好性。通过比较等位特异性DNA甲基化发现,CG甲基化相比CHG甲基化和CHH甲基化具有更强的继承能力,且富集在基因内。总之,通过构建基于两个基因组的杂种分型流程,分析了水稻杂种和亲本在转录组和DNA甲基化上的变化。