论文部分内容阅读
基因本体(Gene Ontology,GO)是一种基于生物信息学资源的本体,它利用本体来表示生物学知识并描述有关基因和基因产物功能的信息。GO包括三个独立的类别:分子功能,生物过程和细胞成分。目前我们重点研究内容是对基因本体的术语相似度计算及对基因本体术语自动扩展算法研究,以上两个研究内容对基因功能分析、比较和预测等生物学研究热门领域具有非常重要的意义。对于术语相似度现有计算的算法还是存在很多的缺陷,没有充分利用现有的信息,近年来也有人把基因功能网络引入到术语相似度的计算中,但是在基因功能网络中只考虑了直接相连的基因,忽略的基因网络中的间接关系,没有充分利用现有信息。目前构建的基因本体大部分是人工构建的,大大增加了工作量,随着生物技术的进步,数据量的不断增长,目前需要做的是开发出一种能够准确、自动地扩展基因本体术语的算法,减少工作量,本文针对现有的相似度算法进行改进提高相似度计算的准确率和术语扩展问题进行深入研究,主要内容如下:(1)基因本体是由领域科学家通过收集实验数据、文献资料等手工构建而成,基因本体本身并不完整,只包含已发现的部分基因功能注释信息,导致基因本体术语相似度计算的不准确。本文提出了一个基于融合高斯核函数的重启随机游走的基因本体术语相似度算法RWRSM(Random Walk with Restart-based similarity measure),通过本文提出的算法不仅考虑到基因本体的结构信息、注释信息的同时还捕获基因功能网络的全局结构信息,基于对EC(Enzyme Commission)编号的酵母组做了多次实验,结果显示本文算法在所有104组EC中有88组具有最高的LFC(Logged Fold Change)得分,占所有的分组的84.6%,评估测试表明本文算法可以提高基因本体中基因功能相似性的准确性及其稳定性。(2)目前的基因本体主要依赖于领域专家手工构建,但是由于生物知识和数据的爆炸式增长,领域专家很难将其充分转化为基因本体中的术语和注释信息。为了提高基因本体术语扩展的效率,迫切需要自动化扩展基因本体术语的方法,辅助领域专家扩展基因本体术语。针对这一问题,提出了一种新的算法GO-Extension来有效地识别由相同的祖先术语标记的所有连接的基因对,GO-Extension用于通过生物网络数据预测新的GO术语并将它们连接到现有的GO。在生物过程分支实验中中,2007、2009、2011和2013年的数据分别包含193、241、275和286个验证术语。GO-Extension方法预测得到了184,265,289和282个术语。根据实验结果表明GO-Extension可以基于生物网络自动扩展新的GO术语。