论文部分内容阅读
目前,化学交联质谱技术已成为研究蛋白质结构与蛋白间相互作用的主流技术。虽然近几年交联质谱技术有了很大的发展,但由于交联二肽的搜索空间巨大,在计算方法方面的研究相对滞后,在大规模数据库下鉴定交联蛋白质仍然存在精度低、速度慢的问题。本文主要研究如何提高交联蛋白质鉴定的精度与速度。主要工作包括如下三个方面。 第一,设计并实现了一种基于半监督学习的多谱排序算法,数据测试表明,在大规模数据库下可显著提升质谱鉴定的灵敏度。在BS3标注集上,使用该算法本文新开发的pLink2.1软件在混合入库的数据库上获得了95.3%的灵敏度,与pLink1.0相比,提升了20.9%。 第二,设计并实现了针对可碎裂交联剂的搜索流程,拓展了pLink2.1软件的应用范围。在Heck实验室的入库数据集上,pLink2.1比XLinkX软件鉴定速度快50倍左右,鉴定结果能够覆盖XLinkX鉴定肽段的97.5%,比XLinkX鉴定到的肽段数目多20%。 第三,为了对交联二肽鉴定算法的精度和速度进行评测,本文设计了模拟理论谱图的生成流程,并利用该流程对Kojak和Protein Prospector两个软件的蛋白内交联的假发现率公式进行了评价比较。 本文通过对大规模数据库下交联蛋白鉴定中的精度与速度问题的研究,采用半监督学习的方法显著提升了鉴定的灵敏度,并在可碎裂交联剂的搜索中显著提升了速度,为交联质谱的鉴定提供了pLink2.1软件工具。