论文部分内容阅读
生物信息学(Bioinformatics)是利用计算机技术对在分子生物学等学科研究中的数据进行收集、整理和分析的一门学科。计算机中数据挖掘(Data mining)技术是一个从大量的数据中挖掘知识的过程,是生物信息学中分析数据所需要的工具。蛋白质的相互作用在生命活动过程中起重要作用。本课题选择了数据挖掘中分类问题的一个算法——朴素贝叶斯分类法来预测黑腹果蝇蛋白质相互作用。
蛋白质相互作用预测的方法很多,但在过去的研究中只使用其中的某个方法来预测,而各种方法有一定的偏向性。本文在收集了大量原始数据的基础上,选择了垂直同源性(Ortholog)、共同表达(Co-Expression)、共同生物过程(Share Biological Process)、富集结构域对(Enriched Domain Pair)作为朴素贝叶斯分类法(Naive Bayes classifier)的四个属性,这些属性值的估算有各自的算法,本文通过程序实现了这些算法。接着使用阴阳极数据计算果蝇蛋白质相互作用的类条件概率和先验概率。之后根据朴素贝叶斯分类法计算果蝇蛋白质在这四种属性共同作用下相互作用的概率。最后根据得到的数据进行了生物学意义的分析。
本文主要使用Java语言实现所有的批量数据处理,使用Mysql数据库存放数据处理的结果。经过本方法处理得到的蛋白质相互作用的数据一方面将对生物实验起到指导作用,另一方面可以对一些未知的蛋白质进行功能注释。本课题所使用的方法对于其他物种的蛋白质相互作用的预测也将有启发作用。