论文部分内容阅读
随着社会经济的不断发展,动物繁殖在畜牧业和动物生产中变的越来越重要。提高动物繁殖率可以不断扩大良种覆盖率,提高动物生产效率以及增加经济效益。其中精子生物学特性研究是动物繁殖学的核心内容,与物种的延续和遗传进化紧密相关。随着高通量测序技术以及生物信息技术的发展,基于已发表的海量文献,我们已经获得了较为详细的精子生物学基因功能、基因表达以及突变检测位点等基因组数据信息。但这些基因功能和细胞生物学先验知识主要集中在人类或者一些模式动物中,在不同物种的知识分布上却不平衡。当我们将研究对象确定为某一种畜牧动物时,却发现并没有可靠和足够的数据信息支持该物种的生物学研究。本研究针对这一问题,基于已发表的精子生物学海量文献、比较基因组学数据、功能基因组学数据以及知识驱动的自动化文献挖掘方法,构建多个物种的精子生物学特性的知识图谱,实现物种间精子生物学特性的知识迁移。具体的研究内容与结果如下:(1)以“公共健康”关键词的文献摘要作为对照组,构建“精子”生物学特性知识图谱。基于知识驱动的自动化文献挖掘统计方法,获得精子生物学特性相关的特异性基因1195个,特异性实体2162个,以及1195个基因与2162个实体之间的关联矩阵,作为标准模型。同时基于标准化知识分类,获得89个精子生物学特性实体类别,以及与该实体类别最相关的文献摘要信息。(2)结合IPA、KEGG数据库的信号通路的通路特征(pathway signatures)数据信息,获得精子生物学特性实体类别显著相关的信号通路(即精子生物学特性类别信号通路),以及该信号通路所富集的基因。进一步分析,我们获得每一个精子生物学特性类别中被显著激活和被显著抑制的信号通路。以及187个信号通路中每一个信号通路被显著激活和被显著抑制所对应的精子生物学特性类别。(3)基于物种基因组学数据和同源基因组数据信息,构建蒙古族五畜“山羊、绵羊、双峰驼、马、牛”的精子生物学特性知识图谱。结合人类精子生物学特性的标准知识数据库和信号通路功能数据库,进行物种间精子生物学特性的知识迁移。我们发现11个精子生物学特性类别信号通路在5个物种中是显著保守的(z-score>5),以及获得不同物种中特异性保守的精子生物学特性类别信号通路(z-score>3)。同时,在相对保守的110个精子生物学特性类别信号通路所富集的基因网络中(z-score>3),发现RAF1、和EGF基因是网络中的枢纽基因。(4)在“马和驴、山羊和绵羊”两对近缘物种之间进行精物生物学特性的可迁移性评估。分别获得每对近缘物种之间显著保守且可以互相进行迁移的精子生物学特性类别_信号通路,以及单个物种显著特异性保守且不可迁移的精子生物学特性类别_信号通路(Z-score>5)。(5)在“单峰驼、双峰驼、羊驼、野生双峰驼”4个骆驼科物种之间进行精子生物学特性的可迁移性评估。获得4个物种之间显著保守且可以迁移的13个精子生物学特性类别_信号通路,以及单个物种特异性保守且不可迁移的精子生物学特性类别_信号通路(Z-score>3)。同样,还获得只在某一物种的精子生物学特性类别中没有被显著激活的信号通路,如“Toll-like Receptor Signaling”信号通路在羊驼的精子细胞DNA和蛋白质结构相关的生物学特性中没有被显著激活,而在单峰驼、双峰驼和野生双峰驼中被显著激活。因此,我们以精子生物学文献摘要作为知识背景,构建知识驱动的自动化文献统计挖掘方法绘制了精子生物学标准知识图谱。同时,采用迁移学习方法构建多物种精子比较功能生物学组,进而实现物种间精子生物学特性的可迁移性评估,为深入了解不同物种的精子生物学特性提供了一定的数据和理论基础。