蛋白质组学质谱数据深度解析中的母离子快速灵敏检测

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：wang605631496

【摘要】

：

基于质谱数据的蛋白质鉴定已经成为蛋白质组学中的基础技术，而母离子检测是深度解析鸟枪法蛋白质组学质谱数据的第一步，这一步非常基础，但是并不简单。随着高通量、高精度质谱仪

【作者】

：

邬龙

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2013年期

【关键词】

：

蛋白质组学串联质谱母离子检测多元自适应回归样条策略搜索

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

基于质谱数据的蛋白质鉴定已经成为蛋白质组学中的基础技术，而母离子检测是深度解析鸟枪法蛋白质组学质谱数据的第一步，这一步非常基础，但是并不简单。随着高通量、高精度质谱仪器得到广泛使用，当前检测母离子的算法在速度和灵敏度两个方面都显得不足。　　采用仪器厂商提供的数据导出接口的软件，如BioWorks，主要存在两个问题:误判母离子的13C谱峰为单同位素峰，不支持导出共洗脱母离子。前者是由于碎裂窗口内的噪音或者其他共洗脱肽段的信号干扰了当前母离子的谱峰信号，导致误判单同位素峰;而后者是由于传统的观点认为每一张串联质谱都来自单条肽段，导致遗漏了共洗脱母离子。MaxQuant和pParse可以对母离子的单同位素峰进行校准，同时可以导出共洗脱母离子，但是母离子召回率还不够高，此外运行速度比BioWorks慢10倍左右。　　本文针对串联质谱数据的母离子检测问题重新设计了快速且灵敏的算法，实现在质谱数据导出软件pParse+中。pParse+由预处理、候选母离子生成、同位素峰重构与色谱曲线重构、特征提取、基于排序打分的过滤和基于多元自适应回归样条(Multivariate AdaptiveRegression Spline，MARS)的过滤等六个部分组成，其中最核心的母离子分类在第六部分中完成。pParse+从串联质谱数据的大窗口搜索鉴定结果中构建了正确母离子的样本集合，然后对每一个样本提取11个特征，形成训练集，进而训练出第六步中的MARS分类模型。　　本文从召回率和运行速度等方面用一组公开数据集对比了pParse+、pParse和MaxQuant三款软件。为了评估pParse+的召回率，本文用三种不同的策略搜索同一数据文件，得到三个标注数据集合。这三个标注数据集分别从常规搜索、设置±3.2 Da母离子误差窗口搜索和对碎裂窗口内全体候选母离子蛮力搜索的鉴定结果中生成。三个数据标注集分别侧重于评测原始的正确母离子、发生1Da质量偏离的母离子和共洗脱母离子召回率。结果发现，在第一个标注数据集上，pParse+、pParse召回率都非常接近，都高于99％，而MaxQuant的召回率为96.27％。在第二个标注集上，pParse+和pParse的召回率非常接近，都超过92％，而MaxQuant的召回率为88.7％。在第三个标注集上，pParse+、pParse和MaxQuant的召回率分别是94.18％、91.83％和85.96％。在速度方面，pParse+平均每秒可以处理458张串联质谱图，在同样的台式机上评测，速度至少比pParse和MaxQuant快10倍。

其他文献

面向片上网络芯片协同设计的RTLGen关键技术研究

现代高性能片上网络(Network on Chip，NoC)互连芯片设计日益复杂，面临性能、功耗、面积、开发时间、成本等诸多因素制约，往往设计需经过从体系结构层到物理实现层的多层迭代与优

学位

片上网络互连芯片协同设计

时间感知的微博检索技术研究

随着Web2.0设计理念的普及和技术的不断成熟，“以人为本”的网络模式逐渐成为当今互联网的主流，微博是其中具有代表性的应用之一。面对着海量的微博数据，微博检索已经成为用户在

学位

微博检索混合语言模型微博排序模型查询扩展技术

个性化话题检测相关技术研究

学位

基于OGC规范的土地利用总体规划数据共享与互操作研究

学位

云计算中流式处理的相关问题研究

随着大数据计算时代的到来，流式数据处理逐渐成为一个热门的研究领域。由于对数据处理低延时的严格要求，传统的计算模型已经不能满足流式数据处理的应用场景，流式数据处理需要一

学位

云计算流式数据处理大数据计算局部性流式DOTA模型

基于Hadoop的自适应实时透明压缩技术研究

随着信息化的高速发展以及移动设备和社交网络的快速普及，互联网的信息量呈爆炸性增长，用户每天以文字、图片、视频等形式产生大量非结构化数据，如何高效地存储和传输这些大规模

学位

Hadoop平台文件管理系统透明数据压缩自适应压缩硬件加速

平面内任意散乱点集的泰森多边形构建及应用研究

学位

生物图像处理应用及研究

医学影像已成为医学技术发展最快的领域之一，生物医学图像处理已作为医生诊断的重要依据，基于全信息摄影的三维成像技术也得到日益广泛的应用，从而进一步提升了医学图像诊断技术

学位

生物图像处理图像压缩医学图像分割降噪处理

互联网视频拷贝检测技术及系统

面对互联网上的海量视频数据，视频拷贝检测具有广泛的应用价值，比如版权保护、视频检索、视频内容监控、视频信息追踪等方面。本文围绕视频拷贝检测的特征提取展开研究，提出一套

学位

互联网视频拷贝检测OM特征改进特征提取显著区域检测图计算算法

Spark平台上随机森林算法性能优化研究

随机森林，是机器学习和数据挖掘等应用中常用的算法，广泛应用于科学研究和商业应用中。随机森林由许多的决策树组成，因为这些决策树的形成采用了随机的方法，所以叫做随机森林。随

学位

Spark平台随机森林算法参数设置优化设计

蛋白质组学质谱数据深度解析中的母离子快速灵敏检测

与本文相关的学术论文