论文部分内容阅读
当今,常见的预测基因功能的方法是把未知功能的基因序列与已知功能的序列数据库进行序列比对,找到相似程度较高的序列,通过已知序列的功能来推测未知序列的功能。但这种方法存在着手工性太强、预测准确度低等缺点。而基因本体论的出现则避免了这一问题,它为新基因的功能预测提供了一套标准,为生物数据的存储、检索和分析提供了一个语义框架协议,从而为不同的数据库系统之间的交互操作及其内容的互相理解奠定了基础。因此,近几年来,以基因本体论来预测基因功能成为了基因组学的一个重大研究课题。基因功能预测对揭示人类生命的真谛、分析和预防疾病、设计新药物等都具有重大的现实意义。
本文首先回顾了目前基因功能预测的几种计算方法,并简单介绍了目前常用的几种基因功能预测方法;其次详细描述了基于最短路径的基因功能预测方法;最后,在实验方法验证中,文中采用最大团算法和K-均值聚类法来对同样的数据进行分析,并以度量基因之间的语义相似性来比较三种实验方法,所得出的结果,证明了基于最短路径法的基因功能预测方法有较高的可靠性。
基因功能预测的常用方法是利用表达模体的相似性来对基因进行聚类。但这些基于基因芯片表达数据来分析基因功能的方法都是假设有相似的表达结构的基因才有相似的功能,未知功能的基因可以通过与它有相似表达的已知基因的功能来推测出。事实上,表达结构相似的基因并非总是有相似的功能。因此,为了确认基因之间的功能关系,文中采用一个不同于聚类的方法。
基于最短路径的基因功能预测方法以基因之间传递共表达作为一个重要的因素来连接同在一条代谢通路中的基因。将同一代谢通路下的基因构建成一个无向赋权图,然后求出其最短路径。根据功能相似基因的表达相关性都较高,对处在同一条最短路径中的基因,可以根据未知功能基因与已知功能基因的高表达相关性来预测未知基因的功能。文中通过对拟南芥代谢通路下的花药基因进行分析并参考拟南芥现有的有GO注释的基因,预测出了部分未知花药基因的功能,并以实验验证了在代谢通路下求最短路径来预测基因功能的方法具有一定的可行性。
拟南芥是进行遗传学研究的好材料,也是目前分子生物学和生物信息学研究的热点对象之一。但是目前在拟南芥基因本体论数据库中只有40%的基因的功能是已知的,因此发掘更好的基因功能预测方法,完善拟南芥基因本体论的数据库,对更多的未知基因进行功能预测是一项非常有意义的工作。本文的研究方法采用不同于常用的聚类分析法,不但避免了聚类方法中的缺点,使基因功能预测的工作变的容易,在减少工作量的同时也提高了预测基因功能的效率。实验表明,通过最短路径来进行基因功能预测为拟南芥基因本体论数据库的完善提供了一个很有意义的工具,并对生物学家进一步研究拟南芥基因及遗传学具有一定的参考价值和指导意义。