论文部分内容阅读
随着测序技术的变革和高通量测序技术的发展,越来越多的基因组被测序,大量的基因组数据尤其是多倍体基因组数据的复杂性,对生物信息学分析提出了更高的要求。多倍化使基因组的规模变得更大,同时多倍化在基因组中造成了大量的冗余,其基因组、转录组数据的生物信息学分析和数据整合则变得更为复杂。本研究以作物杂草稗草为例,通过比较不同的生物信息学软件和方法,选择、整合最适用的生物信息学软件和方法,确定复杂基因组分析流程。 该流程具体包括三项分析功能:(1)基因组拼接质量评估:根据基因组拼接的参数,拼接基因组大小和序列完整度独立测定等,对从头拼接的多倍体基因组拼接质量进行评估;(2)基因组注释:通过重复序列的特征和转座子的结构对基因组的重复序列进行预测,并结合已知的重复序列库进行重复序列的注释;利用两种不同的从头预测的方法,并结合从头拼接的转录组序列和基于基因组拼接的转录组序列,进行基因组的基因预测,并对不同方法的预测结果进行整合优化;结合已知的蛋白序列数据库、蛋白家族数据库、基因功能注释数据库和蛋白生物通路数据库对基因进行基因注释和功能注释;(3)比较基因组学分析:比较不同物种基因序列的相似性并以聚类的方法进行直系同源和旁系同源基因识别;比较不同物种基因组上基因的相似性并根据基因在基因组上的位置,找出不同物种基因组之间的共线性区段,分析不同物种基因组之间的共线性关系;比较不同基因组之间共线性区段的基因对序列,通过对序列四重简并位点的分析,计算遗传距离,估算物种间的分化时间等。 本研究最终整合优化基因组分析过程中最适用的生物信息学分析方法和软件,搭建了一套多倍体复杂基因组的基因组注释及比较基因组学分析流程,并利用Perl语言使相关过程自动化运行,为从事植物复杂多倍体基因组研究团队提供了一个实用的生物信息学分析工具。