论文部分内容阅读
在分子生物学中,常用泛基因组来?述在一个进化分支下所有基因的集合。菌种的泛基因组的基因信息通常比单一菌株更为丰富,有助于其遗传多样性的研究。传统泛基因组研究工具主要关注基因含量,忽略了基因在基因组中的上下文信息;另外,现有可视化工具通常以线性方式对泛基因组进行展示,当进行比较的基因组数量增多时此种方法的展示结果可读性较差,且无法便捷地获取基因的生物学注释;此外,现有工具不能实现对数量庞大且不断增长的宏基因组测序数据进行有效挖掘。
为填补泛基因组研究中的这些空缺,本研究开发了一个泛基因组分析流程,可接受宏基因组组装序列作为输入,实现对基因信息及基因间连接关系的?取,并以参考基因组为骨架构建泛基因组网络,最后在网络数据展示平台中进行交互式可视化。本研究利用模拟数据对该流程的性能进行了评估。
将其应用于5个大肠杆菌病原菌株的分析,发现在编码外膜蛋白的基因簇上,不同菌株的基因序列或基因排列顺序不尽相同,在临床关心的H抗原和O抗原相关基因簇中基因多样性尤为明显。进一步将其应用于760个人肠道微生物宏基因组测序数据中,在得到的大肠杆菌泛基因组中,相应蛋白的多样性与5个单菌基因组的泛基因组相似,且更为复杂。前述两个泛基因组网络的H抗原基因簇中均存在功能未知的基因,预示其可能具有与该基因簇表达调控相关的功能。此外,本研究还发现可移动遗传因子在该泛基因组中的分布十分广泛,且其存在多具有菌株特异性。
相比传统工具,本研究得到的分析流程能够更好地组织、呈现泛基因组。首先,把基因间的连接关系囊括进泛基因组分析,有利于发现结构变异;同时可对未知功能基因进行定位,进而推测其可能参与的生物学过程,指导下游的功能验证实验设计。其次,以网络图的方式组织、可视化泛基因组,既可避免冗余信息的反复出现,亦可实现交互式地对泛基因组网络上的元素进行搜索、个性化展示及生物学注释信息的获取,可促进新变异的发现。最后,由于该流程可接受宏基因组组装序列作为研究起点,丰富了可用于泛基因组研究的数据来源,尤其有助于对现有实验方法难以培养的物种的研究。
为填补泛基因组研究中的这些空缺,本研究开发了一个泛基因组分析流程,可接受宏基因组组装序列作为输入,实现对基因信息及基因间连接关系的?取,并以参考基因组为骨架构建泛基因组网络,最后在网络数据展示平台中进行交互式可视化。本研究利用模拟数据对该流程的性能进行了评估。
将其应用于5个大肠杆菌病原菌株的分析,发现在编码外膜蛋白的基因簇上,不同菌株的基因序列或基因排列顺序不尽相同,在临床关心的H抗原和O抗原相关基因簇中基因多样性尤为明显。进一步将其应用于760个人肠道微生物宏基因组测序数据中,在得到的大肠杆菌泛基因组中,相应蛋白的多样性与5个单菌基因组的泛基因组相似,且更为复杂。前述两个泛基因组网络的H抗原基因簇中均存在功能未知的基因,预示其可能具有与该基因簇表达调控相关的功能。此外,本研究还发现可移动遗传因子在该泛基因组中的分布十分广泛,且其存在多具有菌株特异性。
相比传统工具,本研究得到的分析流程能够更好地组织、呈现泛基因组。首先,把基因间的连接关系囊括进泛基因组分析,有利于发现结构变异;同时可对未知功能基因进行定位,进而推测其可能参与的生物学过程,指导下游的功能验证实验设计。其次,以网络图的方式组织、可视化泛基因组,既可避免冗余信息的反复出现,亦可实现交互式地对泛基因组网络上的元素进行搜索、个性化展示及生物学注释信息的获取,可促进新变异的发现。最后,由于该流程可接受宏基因组组装序列作为研究起点,丰富了可用于泛基因组研究的数据来源,尤其有助于对现有实验方法难以培养的物种的研究。