论文部分内容阅读
蛋白质的翻译后修饰(PTM)是蛋白质在翻译后存在的一种化学修饰,它是蛋白质生物合成的后续步骤之一,因此许多蛋白质基因表达也是依赖于PTM而存在的。一个蛋白质(也称为多肽)是一种氨基酸链。20种不同的氨基酸在蛋白质的合成,可以合并成为一种蛋白质。经过翻译后修饰的氨基酸,实际上是改变其化学性质或空间结构的一种氨基酸,其构成的蛋白质的功能可得到扩展,即附加上其他生化功能。肽段PTM的鉴定可以借用质谱仪,通过质谱法进行鉴定是当前主流的方法。
质谱(MS)分析技术是一种对带电粒子的质量电荷比进行测量的措施。它是用以确定颗粒质量,确定样品或分子的元素组成,并阐明化学品的分子结构,如多肽和其他化学化合物。质谱的方法过程包括电离的化合物,生成电荷的分子或分子碎片,并测量其质荷比这三个主要步骤。
随着质谱技术的发展和各科研实验机构的加入,质谱数据成海量增长,对海量质谱数据的分析和处理就显得相当的重要,而传统的算法在大规模数据上其精度下降很快,本文采用质谱法对于大规模数据上的肽段PTM鉴定问题给于了研究和讨论,主要有两个方面的内容。
1.面向大规模数据的一次肽段PTM鉴定问题
对于大规模问题,用于搜索的数据库较大,一般算法都会遇到精度急剧下降等问题。本文提出一种基于肽序列标签鉴定蛋白质翻译后修饰的一种盲搜索算法。使用了肽序列标签(PST)和母离子过滤的方法首先对候选肽段做过滤,由于PST对质谱的质量要求较高,因此PST两个重要参数标签长度和标签数量要做大量实验来确定,而不是采用经验阈值。同时使用了母离子过滤的方法只搜索与母离子质量在一定范围内的肽段,大量过滤了无效目标。然后采用基于相似性度量的方法给出的打分函数。按得分的高低顺序排列所得肽段,给出最佳匹配及对应的修饰类型。由于使用PST的过滤方法,我们的算法可以在较大的肽段数据库上进行搜索而运行时间和精度上的代价较小,对于数据规模为10k,20k,50k的肽段数据库,其鉴定准确率分别为78.3%,74.2%,65.5%,从而规避了一般算法在大规模数据上的精度下降过快的问题。
2.面向大规模数据的二次肽段PTM鉴定问题
二次肽段PTM问题相对于一次肽段PTM问题,其复杂度更高。本文提出一种基于质量偏移计数的鉴定二次肽段PTM的盲搜索算法MSC-2PTM。一个肽段若存在二次肽段PTM,分析其质量偏移的规律,可以发现这些质量偏移要么是PTM的质量,要么是某二个PTM质量之和,对这些个质量偏移或偏移之和进行计数统计,可确定二次PTM的类型。对于大规模问题,采用前过滤算法,由于存在两处PTM,使得质谱与肽段的可匹配的范围加大一倍,母离子过滤的效果并不明显,因此需要再引入质谱聚类的方法可以减小搜索空间。接下来,对候选肽段与理论质谱进行匹配可以得到一系列的质量偏移,通过四个步骤对得到的这一系列质量偏移量进行处理可以得到可能的二次PTM类型。MSC-2PTM算法在真实数据集GYGI-SET和模拟数据集MOD-SET上分别实验,对于二次肽段PTM的鉴定准备率达到23.83%,而全局鉴定(包括无修饰,一次PTM和二次PTM)的准确率达到92.88%。