论文部分内容阅读
随着质谱技术的发展,高分辨率、高精度的质谱数据的获取大大提升了蛋白质鉴定和定量的效果。使用“鸟枪法”和数据库搜索方法鉴定蛋白质时,可以利用肽段在色谱中的保留时间预测结果提高鉴定结果的灵敏度或可靠性,同时,肽段母离子的检测直接影响鉴定或定量的结果,非常基础且重要。 对于第一个问题,现有的保留时间预测模型大部分用于处理常规肽段,且只能支持特定色谱条件下的保留时间预测,当肽段上发生修饰或者色谱条件发生变化时,使用模型的原有参数会造成预测不准。现在能处理带有修饰的肽段的模型和能适应不同色谱条件的模型较少。 本文设计了基于支持向量回归方法的保留时间预测模型,核心思想是根据肽段的理化性质提取多维特征并输入支持向量回归模型,实现预测。本文的预测模型可以应用于不同色谱条件下发生修饰的肽段。在一组公开数据集上,与目前已知具有最好性能的软件Elude2.0对比,本文的预测模型和Elude2.0分别使预测保留时间和实际保留时间的判定系数达到0.950到0.960之间和0.944到0.958之间,并使95%的肽段的预测保留时间和实验保留时间之间的差值分别落在色谱实验总时间的8.0%到11.2%和8.1%到13.8%之间。本文预测模型的速度约为Elude2.0的32到47倍。 对于第二个问题,目前的母离子检测算法中支持共洗脱母离子检测的算法较少,且没有专门处理有同位素标记的数据的算法。与常规数据相比,有同位素标记(如13C标记)的数据中母离子的同位素峰簇形状发生改变,单同位素峰在同位素峰簇中的相对位置也随之发生变化,现有软件没有做出相应调整,就会造成同位素峰的误判。 本文在现有的母离子检测软件pParse2.0的基础上,增加了对多种标记数据的处理模块,优化并完善了前人研究pParse2.0时建立的三种标注集,改进了基于多元自适应回归样条训练模型的方法,开发了功能更加全面的母离子检测软件pParse2.5。本文建立的三种标注集可以分别评测母离子检测算法对无质量偏移的母离子、发生质量偏移的母离子和共洗脱母离子的召回率。与pParse2.0对比,pParse2.5使15N标记数据中母离子在各标注集上的召回率提高了4%到80%,使13C标记数据中母离子在各标注集上的召回率提高了10到56倍。对于无标记数据,pParse2.5使共洗脱母离子的召回率提高了约13%到28%。最后,由于pParse2.5中采用了母离子单同位素峰的信息,而当母离子质量超过8k Da时,单同位素峰在一级谱图上的信号弱到可以忽略,算法不再适用。对于这种情况,本文采用了母离子最高峰的信息,使用数据库统计的方法计算多标记数据的理论同位素峰簇分布,建立最高峰与理论同位素峰簇分布、单同位素峰与最高峰之间的间隔的索引等,开发了母离子检测软件pParse3.0,未来有望促成肽段母离子和蛋白质母离子检测问题的统一处理。