基于过滤的肽段PTM鉴定算法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:Melanzpl1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质的翻译后修饰(PTM)是蛋白质在翻译后存在的一种化学修饰,它是蛋白质生物合成的后续步骤之一,因此许多蛋白质基因表达也是依赖于PTM而存在的。一个蛋白质(也称为多肽)是一种氨基酸链。20种不同的氨基酸在蛋白质的合成,可以合并成为一种蛋白质。经过翻译后修饰的氨基酸,实际上是改变其化学性质或空间结构的一种氨基酸,其构成的蛋白质的功能可得到扩展,即附加上其他生化功能。肽段PTM的鉴定可以借用质谱仪,通过质谱法进行鉴定是当前主流的方法。   质谱(MS)分析技术是一种对带电粒子的质量电荷比进行测量的措施。它是用以确定颗粒质量,确定样品或分子的元素组成,并阐明化学品的分子结构,如多肽和其他化学化合物。质谱的方法过程包括电离的化合物,生成电荷的分子或分子碎片,并测量其质荷比这三个主要步骤。   随着质谱技术的发展和各科研实验机构的加入,质谱数据成海量增长,对海量质谱数据的分析和处理就显得相当的重要,而传统的算法在大规模数据上其精度下降很快,本文采用质谱法对于大规模数据上的肽段PTM鉴定问题给于了研究和讨论,主要有两个方面的内容。   1.面向大规模数据的一次肽段PTM鉴定问题   对于大规模问题,用于搜索的数据库较大,一般算法都会遇到精度急剧下降等问题。本文提出一种基于肽序列标签鉴定蛋白质翻译后修饰的一种盲搜索算法。使用了肽序列标签(PST)和母离子过滤的方法首先对候选肽段做过滤,由于PST对质谱的质量要求较高,因此PST两个重要参数标签长度和标签数量要做大量实验来确定,而不是采用经验阈值。同时使用了母离子过滤的方法只搜索与母离子质量在一定范围内的肽段,大量过滤了无效目标。然后采用基于相似性度量的方法给出的打分函数。按得分的高低顺序排列所得肽段,给出最佳匹配及对应的修饰类型。由于使用PST的过滤方法,我们的算法可以在较大的肽段数据库上进行搜索而运行时间和精度上的代价较小,对于数据规模为10k,20k,50k的肽段数据库,其鉴定准确率分别为78.3%,74.2%,65.5%,从而规避了一般算法在大规模数据上的精度下降过快的问题。   2.面向大规模数据的二次肽段PTM鉴定问题   二次肽段PTM问题相对于一次肽段PTM问题,其复杂度更高。本文提出一种基于质量偏移计数的鉴定二次肽段PTM的盲搜索算法MSC-2PTM。一个肽段若存在二次肽段PTM,分析其质量偏移的规律,可以发现这些质量偏移要么是PTM的质量,要么是某二个PTM质量之和,对这些个质量偏移或偏移之和进行计数统计,可确定二次PTM的类型。对于大规模问题,采用前过滤算法,由于存在两处PTM,使得质谱与肽段的可匹配的范围加大一倍,母离子过滤的效果并不明显,因此需要再引入质谱聚类的方法可以减小搜索空间。接下来,对候选肽段与理论质谱进行匹配可以得到一系列的质量偏移,通过四个步骤对得到的这一系列质量偏移量进行处理可以得到可能的二次PTM类型。MSC-2PTM算法在真实数据集GYGI-SET和模拟数据集MOD-SET上分别实验,对于二次肽段PTM的鉴定准备率达到23.83%,而全局鉴定(包括无修饰,一次PTM和二次PTM)的准确率达到92.88%。
其他文献
近年来,高性能计算的发展使得大规模的科学计算、建模和仿真能够更快更有效地完成,为科学研究中诸多复杂问题的解决提供了巨大的契机。科学研究中常常有海量的数据需要处理,
本文提出了一种简单而高效的改进动态规划算法--MDP(ModifiedDynamic Programming)算法,该算法可以在目标点和障碍物均可运动的实时环境下搜索最优路径。MDP算法不但可以工作
车牌识别技术是智能交通的重要组成部分,主要包括车牌定位,车牌分割和字符识别三部分。本文设计的车牌识别系统涉及图像处理,机器视觉和神经网络三个领域,改进的算法提高了车
虚拟现实经常需要将虚拟物体与真实场景进行融合,构建新的场景。在构建场景时,一般由特殊的扫描仪扫描物体对象,然后对物体对象进行重建,最后将重建得到的物体融入真实场景中,起到
随着网络的迅速发展和应用的广泛普及,大部分高校都己初步建立了自己的校园网。但是由于安全意识、安全设计、安全管理等多方面的原因,校园网存在的安全问题日渐突出。目前网络
几何路由协议可以为无线传感器网络提供高效、可扩展的路由。基于节点虚拟位置的几何路由协议是其中一个崭新分支,此类协议中的网络节点不需要知道预定义的地理坐标,位置信息通
近年来网络和信息技术的高速发展,越来越多的行业、单位都实现了业务和管理的信息化,分别建立起针对各自业务功能的应用系统。在来自越来越多的不同厂商的设备里而不可避免的
支持向量机的参数选择直接决定着支持向量机的泛化性能,模型选择是支持向量机的基本问题。组合支持向量机的泛化性较单个支持向量机有一定程度的提高,但是,组合支持向量机方法的
随着高速公路联网收费的运营,产生了大量的历史数据。利用这些历史数据结合交通运输行业背景获得以运输量为核心的指标数据,将交通量指标和运输量指标相结合,用以全面了解高速公
随着测量卫星的相关技术发展,三线阵CCD数据采集设备成为传输型摄影测绘卫星的主要传感器之一,依据CCD测量数据进行观测目标的理解是该领域重要研究内容。本文基于嫦娥一号月球