蛋白质组学质谱数据深度解析中的母离子快速灵敏检测

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:wang605631496
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于质谱数据的蛋白质鉴定已经成为蛋白质组学中的基础技术,而母离子检测是深度解析鸟枪法蛋白质组学质谱数据的第一步,这一步非常基础,但是并不简单。随着高通量、高精度质谱仪器得到广泛使用,当前检测母离子的算法在速度和灵敏度两个方面都显得不足。  采用仪器厂商提供的数据导出接口的软件,如BioWorks,主要存在两个问题:误判母离子的13C谱峰为单同位素峰,不支持导出共洗脱母离子。前者是由于碎裂窗口内的噪音或者其他共洗脱肽段的信号干扰了当前母离子的谱峰信号,导致误判单同位素峰;而后者是由于传统的观点认为每一张串联质谱都来自单条肽段,导致遗漏了共洗脱母离子。MaxQuant和pParse可以对母离子的单同位素峰进行校准,同时可以导出共洗脱母离子,但是母离子召回率还不够高,此外运行速度比BioWorks慢10倍左右。  本文针对串联质谱数据的母离子检测问题重新设计了快速且灵敏的算法,实现在质谱数据导出软件pParse+中。pParse+由预处理、候选母离子生成、同位素峰重构与色谱曲线重构、特征提取、基于排序打分的过滤和基于多元自适应回归样条(Multivariate AdaptiveRegression Spline,MARS)的过滤等六个部分组成,其中最核心的母离子分类在第六部分中完成。pParse+从串联质谱数据的大窗口搜索鉴定结果中构建了正确母离子的样本集合,然后对每一个样本提取11个特征,形成训练集,进而训练出第六步中的MARS分类模型。  本文从召回率和运行速度等方面用一组公开数据集对比了pParse+、pParse和MaxQuant三款软件。为了评估pParse+的召回率,本文用三种不同的策略搜索同一数据文件,得到三个标注数据集合。这三个标注数据集分别从常规搜索、设置±3.2 Da母离子误差窗口搜索和对碎裂窗口内全体候选母离子蛮力搜索的鉴定结果中生成。三个数据标注集分别侧重于评测原始的正确母离子、发生1Da质量偏离的母离子和共洗脱母离子召回率。结果发现,在第一个标注数据集上,pParse+、pParse召回率都非常接近,都高于99%,而MaxQuant的召回率为96.27%。在第二个标注集上,pParse+和pParse的召回率非常接近,都超过92%,而MaxQuant的召回率为88.7%。在第三个标注集上,pParse+、pParse和MaxQuant的召回率分别是94.18%、91.83%和85.96%。在速度方面,pParse+平均每秒可以处理458张串联质谱图,在同样的台式机上评测,速度至少比pParse和MaxQuant快10倍。
其他文献
现代高性能片上网络(Network on Chip,NoC)互连芯片设计日益复杂,面临性能、功耗、面积、开发时间、成本等诸多因素制约,往往设计需经过从体系结构层到物理实现层的多层迭代与优
随着Web2.0设计理念的普及和技术的不断成熟,“以人为本”的网络模式逐渐成为当今互联网的主流,微博是其中具有代表性的应用之一。面对着海量的微博数据,微博检索已经成为用户在
学位
学位
随着大数据计算时代的到来,流式数据处理逐渐成为一个热门的研究领域。由于对数据处理低延时的严格要求,传统的计算模型已经不能满足流式数据处理的应用场景,流式数据处理需要一
随着信息化的高速发展以及移动设备和社交网络的快速普及,互联网的信息量呈爆炸性增长,用户每天以文字、图片、视频等形式产生大量非结构化数据,如何高效地存储和传输这些大规模
学位
医学影像已成为医学技术发展最快的领域之一,生物医学图像处理已作为医生诊断的重要依据,基于全信息摄影的三维成像技术也得到日益广泛的应用,从而进一步提升了医学图像诊断技术
面对互联网上的海量视频数据,视频拷贝检测具有广泛的应用价值,比如版权保护、视频检索、视频内容监控、视频信息追踪等方面。本文围绕视频拷贝检测的特征提取展开研究,提出一套
随机森林,是机器学习和数据挖掘等应用中常用的算法,广泛应用于科学研究和商业应用中。随机森林由许多的决策树组成,因为这些决策树的形成采用了随机的方法,所以叫做随机森林。随