基于多特征的蛋白质磷酸化预测算法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:snsjgl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为重要的翻译后修饰活动之一,可逆的蛋白质磷酸化在多种细胞生命活动中起着调控作用。它被形象地描述为细胞生命活动的分子开关,几乎调节着生命活动的所有过程,如细胞生长、发育、凋亡等。因此,深入研究磷酸化的机理以及对蛋白功能的影响,是现代生物学研究中值得探索的研究方向之一识别蛋白质的磷酸化位点主要有基于实验和预测的方法。常用的实验检测蛋白质磷酸化的方法主要有32P放射性标记、质谱分析法等。采用实验方法鉴定磷酸化位点耗时耗力,且对蛋白质组学的所有序列进行检测的可行性较低,这就推动了生物信息学预测技术在近年来的快速发展。实验技术为生物信息学的发展提供了大量的实验数据基础,从已有的磷酸化数据中挖掘修饰规律并对未知的磷酸化位点进行推测的方法也被相继提出。作为一种有效的信息学手段,蛋白质磷酸化位点预测方法可以对实验方法起着指导作用。本文采用机器学习方法对蛋白质磷酸化位点进行预测,提供了一种具有系统的和层级特异性的磷酸化位点预测研究方法。首先根据Manning提出的方法将蛋白激酶按照同源性等信息划分为包含组、家族、子家族和激酶四个层面的层级结构,然后从Phospho.ELM中提取已有的蛋白质磷酸化序列信息,并将Phospho.ELM数据库中蛋白激酶映射到层级结构上,构成包含多个层面的蛋白激酶数据集。然后,从基因本体论和STRING数据库里分别提取基因本体论和蛋白-蛋白相互作用特征,构建用于磷酸化位点预测研究的特征集。由于基因本体论和蛋白-蛋白相互作用特征维数较高,我们提出了基于mRMR的“两步序列前向选择”方法进行特征选择,对每组蛋白激酶数据分别选出最优的特征子集。并在此基础上,使用随机森林方法构建分类模型进行预测,进而推断未经实验验证的蛋白质序列位点能否被磷酸化。通过10折交叉验证法和独立测试方法对分类模型进行性能评估,发现在各个层面上该分类模型预测性能明显优于其它蛋白质磷酸化位点预测工具,尤其是假阳性率分别控制在1%和5%水平下,该分类模型仍然可以对阳性数据达到较高的预测准确率。最后,为了方便同行使用该磷酸化位点预测方法,我们提供了相关的预测工具包,以期为相关领域研究提供指导和帮助。
其他文献
硝酸盐是海洋中一种很重要的营养盐,深海中硝酸盐浓度不仅有利于海洋生态系统研究,也有利于海洋水质的评估等。目前,海洋中硝酸盐浓度的检测系统存在着操作复杂、成本高、稳
冲击式水轮机的内部流动和破坏机理相当复杂,其流动为三维、非稳态、紊流,其特点是流动具有自由流面,并受旋转力的影响,对于其中的很多细节,至今仍不甚了解,在喷嘴数较多的情况下,转
高炉渣是冶炼生铁时从高炉中排出的副产品,随着我国钢铁需求量的增长和钢铁工业的发展,高炉渣的排放量日益增大。目前高炉渣的利用方式都是将其作为一种材料的形式来加以利用,对
菜粉蝶(Pieris rapae)属于鳞翅目、粉蝶科,是十字花科蔬菜重要的农业害虫,严重影响着农作物的产量。如Gilbert在其主编的《Insect Development》一书序言所述,昆虫发育的研究
叶轮是离心泵的重要元件,泵的性能在很大程度上取决于叶轮设计的优良程度。叶轮设计包括基本外尺寸(进出口宽度、内外半径、叶片进出口安装角及叶片数)的确定和叶片造型设计两
针对前期实验中发现的稳定蒸发器入水温度和水流量以及冷凝器入水温度,制热量随冷凝器水流量增加而减少的特殊变化趋势,对非共沸混合工质的循环特性展开新一轮的实验研究。沿
“道虽迩,不行不至;事虽小,不为不成。”任何一项改革措施,能不能做到落地生根、取得实效,直接决定着改革成败。党的十八大以来,习近平总书记多次就抓好改革落实问题作重要讲
CoCrMo合金由于优异的力学性能和较高的弹性模量,在心血管支架材料领域引起了广泛的关注,但是CoCrMo合金支架在植入人体后会出现有毒离子释放的问题,导致血管再狭窄、晚期血
浙江省浦江县联社将“丰收小站”的综合服务定位为“一站五角”模式,即在小站内设立丰收电商角、丰收金融角、丰收物流角、丰收便民角和丰收信息角,为农户提供优质的金融服务
液膜流动具有重要的工业应用和学术研究价值。一方面,因其很强的热交换和质交换能力而被广泛应用于能源、化工等领域;另一方面,其也涉及非线性、孤立波和混沌等诸多热点内容。因