基于机器学习方法的蛋白质相互作用位点及二级结构预测

来源 :安徽大学 | 被引量 : 0次 | 上传用户:l100890628
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质的功能常体现在生物大分子的相互作用中,识别蛋白质相互作用位点对于研究蛋白质功能发挥着重要作用。研究蛋白质的功能还需要深入了解它的结构,因为结构决定功能,有什么样的结构必定有什么样的功能。生命的功能和结构,二者是统一的。通过实验方法确定蛋白质相互作用位点和蛋白质的结构类型,费时、费力、费财,且实验中可能还会遇到一些目前无法解决的困难,因此利用理论及计算方法来研究蛋白质相互作用位点、蛋白质结构类型具有重要意义。有鉴于此,本文基于支持向量机(SVM)、BP神经网络两种机器学习方法,研究了与蛋白质功能息息相关的两个方面——蛋白质相互作用位点预测和蛋白质二级结构预测。主要工作如下:  1.基于支持向量机的蛋白质相互作用位点预测从蛋白质一级序列出发,给出一种以序列上相邻残基的序列谱和信息熵的组合为输入特征向量、以支持向量机为分类器,来预测蛋白质相互作用位点的方法。本文提取出2种特征向量——序列上相邻的序谱、序列上相邻的序列谱及信息熵的组合,分别形成3种不同大小的滑动窗口(Win3、Win7、Win11),构成输入特征向量,采用“留一法”形成训练数据集和测试数据集,使用支持向量机分类器预测测试集中的表面残基是否是蛋白质相互作用位点,得到了较好的结果,说明了实验方法的有效性。最后,采用可视化软件对蛋白质相互作用位点进行了定位。实验结果表明:  (1)在两种输入特征向量下的各种评价指标中,对于不同大小的信息窗,采用序列上相邻的序列谱与信息熵的组合作输入特征向量得到的结果,基本高于仅用序列上相邻的序列谱作输入特征向量的结果。这说明,在残基序列谱和信息熵这两个特征中所包含的信息可以互补,且这种互补性对蛋白质相互作用位点的预测是有益的。同时对于相同大小的信息窗,采用以上两种输入特征向量所耗费的运行时间相差无几。  (2)在两种输入特征向量下的分类正确率(Accuracy),Win7、Win11的平均Accuracy较Win3都有不同程度的提高。对于仅用序列谱作输入特征向量而言,Win3、Win7、Win11的平均Accuracy随窗口的增大而提高。  (3)对于用序列谱与信息熵的组合作为输入特征而言,Win7所得的各种评价指标的值均最高,这说明并不是目标残基的相邻残基越多,支持向量机对其分类精确度就越高,目标残基与其相邻残基之间还存在一定的融合问题。  2.基于BP神经网络的蛋白质二级结构预测提取46个蛋白质复合物的非同源单链作为数据集,分别采用5位编码和Profile编码作为输入特征向量,通过不同大小的滑动窗口(Win3、Win5、Win9),对蛋白质二级结构进行预测。实验结果显示,富含“生物进化信息”的Profile编码有着明显的优势,各种精确度均得到了较好的结果,尤其是精确度QE明显高于5位编码的QE。这说明虽然Profile编码较为复杂,但由于它富含“生物进化信息”,因而相对5位编码方式更适合于一致性较低的蛋白质二级结构的预测。  
其他文献
近些年来,随着网络环境的不断改善,流媒体应用得到了飞速发展。从基于代理服务器的流媒体组播方案到现在比较流行的基于P2P网络的流媒体组播方案,其发展速度十分迅猛。关于流
随着基于构件的软件开发方法的不断发展,构件组装技术与方法研究日益受到重视。如何将特定领域中的构件组装成为更大粒度的构件或应用程序,成为研究的一个热点问题。本文针对
企业实体间关系的抽取是实体关系抽取的一种,是一种典型的信息抽取问题。在MUC和ACE评测的推动下,近年来国内外的实体关系抽取的研究工作取得了巨大进步,研究者提出了众多有
人类对计算能力的需求永无止境,高性能计算水平逐渐成为世界强国竞相追逐的焦点。并行化编译作为高性能计算中不可或缺的一部分,能够识别程序中不同层次、不同粒度的并行性,并自
表达谱基因芯片技术的发展使得快速准确地同时度量成千上万的基因表达值成为可能,因而如何从海量的基因表达数据中挖掘出有价值的基因表达模式逐渐成为近年来生物信息学研究的
动态二进制翻译技术能够把一种处理器上的二进制程序翻译到另一种指令集的处理器上执行,在软件移植或设计研发以及漏洞挖掘等方面具有重大意义,特别是在处理X86应用程序向国产
图像融合是图像处理的一个重要领域。其目的是通过分析每幅待融合图像的特征,选用合适的融合策略对特征进行融合,最终得到需要的图像。多聚焦图像融合是图像融合的一个分支,
基于内容的图像检索是根据描述图像视觉内容的特征向量进行相似性检索,其中图像视觉内容的提取可以是通用的,也可以是基于特定领域的。基于特定领域的图像检索技术可以充分利
汽轮发电机组监测与故障诊断是保障机组安全运行的重要手段之一。基于互联网技术实现机组远程监测与故障诊断十分必要。本文在查阅了大量国内外文献的基础上,对汽轮机的工作
网络实体IP地理定位是指确定一个具有IP标识的网络目标节点在某个粒度层次的地理位置。开展IP定位方法的研究,推进IP定位技术的实用化,对定向广告、云服务持续性和监管、敏感网