论文部分内容阅读
疾病基因的确定是基因组学从科研走向应用的重要步骤,目前已经有了大量的相关研究,其中筛选潜在疾病基因是生物信息学领域目前的研究热点。疾病基因的确定流程周期长,需要筛选出潜在疾病基因,进行生物实验来确定疾病基因。传统的筛选方法,例如定位克隆、全基因组关联分析、连锁分析等方法存在候选基因数量多,真正疾病基因少的问题。在筛选潜在疾病基因中,准确且不遗漏的找出尽可能多的疾病基因是核心问题。本文研究了基因本体和生物通路两种模式数据在筛选潜在疾病基因中的应用,分别使用两种数据计算基因功能相似度,以基因功能相似度为特征应用机器学习分类模型,筛选潜在疾病基因。与传统的方法相比,筛选出的潜在疾病基因数量更少,能缩短疾病基因确定的时间周期,降低疾病基因确定的成本。主要工作包括:(1)提出了一种改进的基于基因本体识别疾病基因的方法。现有的方法认为“疾病基因会在基因本体的生物过程分支上聚集”。本文认为“疾病基因会在基因本体的所有分支上聚集”,提出了全分支聚集方法(Full Branch Aggreation,FBA)。在计算基因本体术语相似度和基因功能相似度时,使用基因本体的所有分支。在自闭谱系障碍疾病基因数据集上进行了实验,测试了四种不同的基因本体术语相似度算法:Resnik、Rel、Wang、Netsim。实验结果表明,改进后的方法平均识别准确率从72%提升到了78%。最高的分类准确率从79.3%提升到了91.4%。(2)提出了一种基于生物通路的疾病基因识别方法,使用典型的Pathcard生物通路数据库,通过基因和生物通路之间的相关程度来计算基因之间的功能相似度,在自闭谱系障碍疾病基因上进行了实验。实验结果显示识别准确率(Accuracy)达到了95.98%,查准率(Precision)达到了93.94%,召回率(Recall)在98%以上,表明基于生物通路的方法可以有效的识别疾病基因。此外,还和基于基因本体的方法进行了对比,在查准率(Precision)方面以93.94%略低于基于基因本体的97.96%,而在召回率(Recall)方面以98.30%高于基于基因本体的83.84%,表明基于生物通路的方法会误判一些非疾病基因,但是更少地遗漏疾病基因。本文主要研究了在生物信息学领域应用较为广泛的基因本体和Pathcard两种数据,对现有的基于基因本体的方法进行改进,探讨了Pathcard在计算基因功能相似度的可行性,并应用于疾病基因分类。受限于研究所采用的分类模型,只使用了自闭谱系障碍一种疾病基因,下一步将修改模型以求能应用于其他疾病基因。