论文部分内容阅读
基于质谱技术的蛋白质鉴定方法已经成为蛋白质组学研究中的主流方法,而分析质谱数据的常用方法主要是数据库搜索技术。在数据库搜索中,肽段母离子信息的准确性决定着鉴定结果的有效性。但是,目前领域内仍然缺少一种有效地检测母离子信息并校正母离子质量的数据预处理算法。 目前已有的pParse2.0算法可以检测并校正母离子信息,同时支持多种不同的质谱数据类型。pParse2.0基于通用的机器学习框架开发,主要包含谱图预处理以及候选母离子生成、特征提取、粗打分过滤和机器学习方法过滤四个步骤。pParse2.0使用pFind2.8限定式搜索结果标注母离子的正负样例,然后利用多元自适应样本回归样条(MARS)技术训练得到离线模型,对测试数据在线提取9维特征,利用MARS模型对母离子进行分类。 本文在pParse2.0的基础上,进一步探索提升母离子检测算法性能的方法,开发了pParse2.2。主要有以下五个创新点:1)使用pFind3.0开放式搜索结果标注母离子的正负样例。与限定式搜索引擎相比,开放式搜索引擎拥有更高的灵敏度,可以更加准确地标注负例。2)使用新的训练数据Mann-Mouse。与pParse2.0使用的Mann-Hela数据相比,使用Mann-Mouse数据训练的模型在相同导出倍数下具有更高的母离子召回率。3)添加两个新特征。在所有特征中具有比较重要的地位,提高了模型的召回率。4)尝试用SVM模型代替MARS模型,以此简化开发流程。在适当增加导出倍数的情况下,SVM模型具有与MARS模型相近的召回率。5)设计新的评测方案,对母离子检测算法的性能进行全面评估。评价标准主要包括灵敏度、速度、校正后的母离子的一致性以及母离子检测算法对不同种类搜索引擎解析率的影响等。 本文在四组数据上分别构建了标注全集(W),并将其划分为两类:目标标注集(T)和扩展标注集(E)。在这三种标注集上评测软件的性能,实验结果表明:1)pParse2.2具有较高的灵敏度。在标注集W、T和E上分别平均召回约95%,99%和83%的母离子。2)在不同导出倍数下,pParse2.2的召回率均高于pParse2.0。与pParse2.0相比,当导出倍数设置为1倍时,pParse2.2在三种标注集上的平均召回率分别提高了1.6,2.0和0.4个百分点;当导出倍数设置为2倍时,pParse2.2在三种标注集上的平均召回率分别提高了0.9,0.6和1.6个百分点。3)pParse2.2与其他母离子检测软件相比,灵敏度优势明显。与MaxQuant和Hardkl(o)r相比,pParse2.2在标注全集上的平均召回率分别高出17.6和18.6个百分点,在扩展标注集上的平均召回率分别高出27.7和50.3个百分点。4)pParse2.2也可以提高数据库搜索引擎的解析率。在三个常规数据库搜索引擎上多鉴定了至少60%的PSMs;在分析交联和糖肽数据的搜索引擎上分别多鉴定了48.5%和26.7%的PSMs。 总之,pParse2.2能有效地从多种类型的数据中提取准确的母离子信息,在常规的质谱数据分析中将会被广泛应用。