论文部分内容阅读
基于质谱数据的蛋白质鉴定已经成为蛋白质组学中的基础技术,而母离子检测是深度解析鸟枪法蛋白质组学质谱数据的第一步,这一步非常基础,但是并不简单。随着高通量、高精度质谱仪器得到广泛使用,当前检测母离子的算法在速度和灵敏度两个方面都显得不足。 采用仪器厂商提供的数据导出接口的软件,如BioWorks,主要存在两个问题:误判母离子的13C谱峰为单同位素峰,不支持导出共洗脱母离子。前者是由于碎裂窗口内的噪音或者其他共洗脱肽段的信号干扰了当前母离子的谱峰信号,导致误判单同位素峰;而后者是由于传统的观点认为每一张串联质谱都来自单条肽段,导致遗漏了共洗脱母离子。MaxQuant和pParse可以对母离子的单同位素峰进行校准,同时可以导出共洗脱母离子,但是母离子召回率还不够高,此外运行速度比BioWorks慢10倍左右。 本文针对串联质谱数据的母离子检测问题重新设计了快速且灵敏的算法,实现在质谱数据导出软件pParse+中。pParse+由预处理、候选母离子生成、同位素峰重构与色谱曲线重构、特征提取、基于排序打分的过滤和基于多元自适应回归样条(Multivariate AdaptiveRegression Spline,MARS)的过滤等六个部分组成,其中最核心的母离子分类在第六部分中完成。pParse+从串联质谱数据的大窗口搜索鉴定结果中构建了正确母离子的样本集合,然后对每一个样本提取11个特征,形成训练集,进而训练出第六步中的MARS分类模型。 本文从召回率和运行速度等方面用一组公开数据集对比了pParse+、pParse和MaxQuant三款软件。为了评估pParse+的召回率,本文用三种不同的策略搜索同一数据文件,得到三个标注数据集合。这三个标注数据集分别从常规搜索、设置±3.2 Da母离子误差窗口搜索和对碎裂窗口内全体候选母离子蛮力搜索的鉴定结果中生成。三个数据标注集分别侧重于评测原始的正确母离子、发生1Da质量偏离的母离子和共洗脱母离子召回率。结果发现,在第一个标注数据集上,pParse+、pParse召回率都非常接近,都高于99%,而MaxQuant的召回率为96.27%。在第二个标注集上,pParse+和pParse的召回率非常接近,都超过92%,而MaxQuant的召回率为88.7%。在第三个标注集上,pParse+、pParse和MaxQuant的召回率分别是94.18%、91.83%和85.96%。在速度方面,pParse+平均每秒可以处理458张串联质谱图,在同样的台式机上评测,速度至少比pParse和MaxQuant快10倍。