论文部分内容阅读
甘蔗(Saccharum spp.)是世界上最重要糖料、生物燃料作物,是研究C4光合作用途径和同源多倍体遗传的模式植物,具有巨大的经济和科研价值。在过去的数年中,甘蔗的测序及分析数据迅速积累,为本研究的顺利开展奠定了基础。使用Tripal工具构建甘蔗割手密基因组数据库(http://www.sugarcanetf.site/sgd/html/index.html)作为甘蔗研究的中心门户对这些数据进行存储、挖掘、分析、整合以及共享。研究主要结果如下:(1)甘蔗割手密基因组数据的开发使用BLAST2GO和EggNOG,对甘蔗中99,708个基因进行GO项目注释,65,277个基因进行KEGG生物通路注释。对甘蔗割手密预测基因中的1,278个特异性基因家族进行GO富集,发现这些基因的功能大多富集在对伤口、外部刺激的反应。使用MISA软件对甘蔗割手密进行全基因组SSR开发,共发现577,299个SSR位点,其中染色体特异性位点有98,271个,约占总数的17%。将其与其他四种禾本科植物中的基因组SSR进行比较,发现在禾本科植物中,SSR的丰度与其基因组大小成正比,而SSR的相对丰度与基因组大小没有明显的相关性。开发植物全基因组转录因子预测分类流程,调用HMMER软件实现甘蔗割手密的全基因组转录因子预测及分类。研究中共预测到4,271个编码转录因子的基因,并将其分为57个转录因子家族。(2)甘蔗割手密转录组表达谱数据的开发使用HISAT2和Cufflinks对甘蔗割手密叶段发育、不同生长时期以及昼夜节律的材料进行表达量计算,所得数据可以为甘蔗碳水化合物、光合途径等重要生物学性状基因家族表达谱的研究提供帮助。(3)甘蔗割手密重测序群体基因组数据的开发使用GATK进行变异检测,共识别出448万个高质量的变异型,其中包括约390万个SNPs。之后分别使用SNPhylo和Admixture软件进行系统演化分析和群体结构分析。群体结构分析结果表明可将甘蔗割手密群体分为三个亚群,三个亚群中染色体倍性均呈广泛分布状态。所得数据可用于甘蔗割手密自然群体遗传背景的研究,并为甘蔗育种过程中割手密资源的利用提供帮助。(4)甘蔗割手密基因组数据库的构建基于上述数据集,本研究创建了国际上第一个甘蔗割手密全基因组数据库(Saccharum Genome Database,SGD)。SGD是一个用户友好型的交互式数据库,提供的数据集包括:基因组、蛋白序列、功能注释、表达量、转录因子、分子标记等。除了优质的数据集,SGD还为用户提供了详细的用户手册、强大的搜索工具以及实用的在线工具:JBrowse和BLAST。SGD网站将不断进行数据更新以促进甘蔗及其近缘物种的分子生物学、功能基因组学和遗传进化的研究。