使用朴素贝叶斯分类法预测果蝇蛋白质相互作用

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:CT1978
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物信息学(Bioinformatics)是利用计算机技术对在分子生物学等学科研究中的数据进行收集、整理和分析的一门学科。计算机中数据挖掘(Data mining)技术是一个从大量的数据中挖掘知识的过程,是生物信息学中分析数据所需要的工具。蛋白质的相互作用在生命活动过程中起重要作用。本课题选择了数据挖掘中分类问题的一个算法——朴素贝叶斯分类法来预测黑腹果蝇蛋白质相互作用。 蛋白质相互作用预测的方法很多,但在过去的研究中只使用其中的某个方法来预测,而各种方法有一定的偏向性。本文在收集了大量原始数据的基础上,选择了垂直同源性(Ortholog)、共同表达(Co-Expression)、共同生物过程(Share Biological Process)、富集结构域对(Enriched Domain Pair)作为朴素贝叶斯分类法(Naive Bayes classifier)的四个属性,这些属性值的估算有各自的算法,本文通过程序实现了这些算法。接着使用阴阳极数据计算果蝇蛋白质相互作用的类条件概率和先验概率。之后根据朴素贝叶斯分类法计算果蝇蛋白质在这四种属性共同作用下相互作用的概率。最后根据得到的数据进行了生物学意义的分析。 本文主要使用Java语言实现所有的批量数据处理,使用Mysql数据库存放数据处理的结果。经过本方法处理得到的蛋白质相互作用的数据一方面将对生物实验起到指导作用,另一方面可以对一些未知的蛋白质进行功能注释。本课题所使用的方法对于其他物种的蛋白质相互作用的预测也将有启发作用。
其他文献
随着电子商务的飞速发展和广泛应用,网络安全及其形式化分析引起社会的密切关注,逐步成为计算机科学研究的热点领域。非否认技术作为网络安全中最具价值的研究问题之一,在避免电
多标记学习最早出现在文档分类问题中,由于歧义性问题的存在,造成一条数据可能同时具有多个不同的类别标记。多标记学习问题广泛存在于现实实际问题中,多标记学习已逐渐成为国际
工程信息管理系统是网络技术与工程管理有机融合的整体,它以网络为平台,以工程管理为主题,在实现过程中其工作效果与系统的实际性能休戚相关,如何将处于不同地域不同网络不同环境
本文比较了国外成熟的企业间集成的解决方案,学习优秀的设计理念,结合Web Service,XML等技术,同时秉承原有CP_EDI系统的先进设计理念,开发了基于Web Service技术的企业间集成方案
面向服务的体系结构的出现和发展使得Web服务成为当今服务及软件开发的发展趋势。由于功能有限的单一的Web服务在多数情况下不能满足用户的需求,出现了将多种web服务按某种特
随着电子商务、电子政务的迅速发展,人们从现实世界进入电子世界,网络成为人们从事各种业务活动的重要渠道,因此构建一个安全、可信的网络环境受到越来越多的重视。世界各国经过
随着Intemet技术和网络业务的飞速发展,用户对网络资源的需求空前增长,网络也变得越来越复杂。不断增加的网络用户和应用,导致网络负载沉重,网络设备超负荷运转,从而引起网络性能
本文在分析了当前分布式PKI环境下证书验证存在的问题后,提出了一种证书验证代理服务器的方案,由该服务器来执行复杂的证书路径构建和证书路径验证的工作,从而将客户端从复杂
在网络得到快速发展和应用的现代社会,信息安全问题成为人们密切关注的问题之一。数字签名作为一种保障信息安全的技术,在确保信息的完整性、不可伪造性、不可否认性方面发挥了
手语识别作为多模式人机接口领域的一项重要组成部分,已经吸引了越来越多的专家和学者们的注意。手语识别的研究目标是让机器“看懂”聋哑人的语言。这里“看懂”有两种含意,一