论文部分内容阅读
“自顶向下”(Top-Down,TD)的蛋白质组学主要是以直接鉴定和定量整体蛋白质为研究目标。其中的计算问题相对于以肽段为研究对象的“自底向上”(Bottom-Up,BU)的蛋白质组学变得更加复杂与困难,包括快速获取有效候选蛋白质、多翻译后修饰的高效鉴定、搜索结果的多谱排序、以及整体蛋白质的准确定量等等。本文以整体蛋白质的质谱数据为研究出发点,以设计与实现新的高效算法为主要研究内容,重点解决整体蛋白质鉴定中的截断蛋白质鉴定、多翻译后修饰高效鉴定和多谱排序三个算法问题,力图在保证尽可能快速的前提下进一步提高整体蛋白质质谱数据的解析率。 本文的贡献具体包括如下三个方面。 第一,通过新的蛋白质鉴定算法和搜索流程提升了谱图解析率。本文利用序列标签的两翼质量偏差实现了截断蛋白质的鉴定,并通过粗打分进一步过滤候选蛋白质。通过对常见的修饰类型建立修饰索引表实现了搜索可变修饰的同时允许一个意外修饰的鉴定。本文还探索并实现了离子索引流程,并将其作为二次搜索模块,进一步提高了引擎的灵敏度。综合上述工作,经测试表明,本文开发的pTop2.0在多个数据集上的解析率比pTop1.2高出约6%到11%,比TopPIC高出约12%到25%。 第二,实现了基于半监督学习的重打分方法,提升了鉴定的灵敏度。本文提取了搜索结果的11维特征,通过线性SVM进行迭代训练和打分,并利用目标-诱饵库策略估计FDR。在两个数据集上测试发现,使用SVM重排序后解析率提高了2%到5%。 第三,通过大量测试与分析已有软件pTop1.2的性能与局限,本文实现了上述新提出的算法,并开发了整体蛋白质搜索引擎pTop2.0。另外,pTop2.0还增加了定量功能,集成了pQuant定量模块,实现了整体蛋白质基于一级谱的准确定量。本文通过多线程技术实现了流程的加速,为高通量的整体蛋白质鉴定与定量提供了一套精准高效的数据分析工具。