基于机器学习的蛋白质热点残基预测方法的研究

来源 :武汉科技大学 | 被引量 : 2次 | 上传用户:gaokao4567
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类基因组和许多其它物种基因组序列测序计划的成功完成,不断增长的基因组序列数据提供了数百万条蛋白质的编码信息。实验证明蛋白质相互作用主要依赖相互作用界面上的少部分关键残基,并且这些关键残基对蛋白质相互作用的结合自由能的贡献更加显著,这些关键残基也被称为热点。这些热点残基对蛋白质相互作用的界面显得十分重要。因此,预测蛋白质相互作用界面上的热点残基对更好理解蛋白质相互作用的本质以及帮助缩小药物设计的空间搜索上越来越重要。近年来,研究人员从各种角度出发,提出了很多的计算方法来预测蛋白质相互作用热点。本文从蛋白质序列和结构出发,使用蛋白质各种特征属性,并在此基础上提出了两步特征选择算法和基于贝叶斯推断的最小二乘支持向量机的学习方法来预测蛋白质相互作用热点残基。在应用计算方法来研究蛋白质相互作用界面热点残基时,如何选择有效的生物特征是需要解决的关键问题。我们首先从蛋白质序列和结构出发,提取了65种与热点残基可能相关的生物特征。然后设计了一个两步特征选择算法,从这些特征中选取了12种特征,构建了一个的基于最小支持向量机的分类模型。在建立模型的过程中,运用贝叶斯推断方法对最小二乘支持向量机的正规化参数、核函数参数进行优化选择,获取基于参数后验概率最大化的最优参数组合,进而构建可准确预测蛋白质相互作用热点预测的优化模型。为了证明我们方法的有效性,我们在一个独立的测试集上验证我们的方法。实验结果证实了我们的方法能有效地对热点残基进行分类,与其它的方法对比在预测精度上有了相应的提高。
其他文献
P2P网络是近年来计算机领域研究与关注的一个焦点,它在很多领域都得到了应用,未来发展空间很大。但是,P2P网络发展过程中,也产生了一系列急需研究和解决的问题,安全就是其中
近年来,通信网和计算机网络不断飞速发展,给全世界的人们带来了极大的方便。同时,网络自身也变得越来越庞大复杂,对网络的管理与控制已经成为网络研究建设的重要内容之一。In
随着信息技术的飞速发展,数据爆炸和知识贫乏之间的矛盾越来越大,使数据挖掘在许多领域所起的作用越来越重要。在数据挖掘的各分支中,关联规则挖掘的研究最为深入和广泛。目前对
随着Lotus Domino群件系统的普遍应用,Domino系统的规模不断扩大,基于Domino的关键应用也不断增多。Domino系统的可用性和可扩展性就成了许多用户关注的问题。针对这些方面的
随着互联网技术和多媒体技术的快速发展,作为多媒体数据源之一的图像的资源量剧增,并且深刻影响着人们生产生活的各个领域,因此,如何高效地获取和使用图像信息,成为了当前学术界和
本文结合自行研制的新型短波监测设备,对短波传播理论、无线电测向技术、数字信号处理理论和软件无线电理论等进行了深入研究,并将其应用于设备中。首先,对无线电测向理论进
本文以企业银行住房公积金信息系统开发为例,阐述了利用基于MVC模式的Struts框架实现B/S应用系统的技术要点。 文中首先在充分分析了公积金缴存系统的用户需求之后,给出了基
本文以基因表达数据为研究对象。由于基因表达数据存在局部相似和时间延迟的特点,直接应用传统的相似度计算方法难以准确发现表达相似的基因。本文中,我们试图通过计算满足一定
随着信息社会的发展,越来越多的信息被数字化,尤其是伴随着Internet的发展,数字化的信息呈爆炸式增长。因而在未来几年里,如何存储和管理这些数据将成为人们关注的焦点。七、
当今,互联网已成为人类有史以来资源最多、品种最全、规模最大的信息库。作为网上最主要的信息检索工具,搜索引擎发挥着非常重要的作用。传统的搜索引擎大都是基于HTML的搜索引