论文部分内容阅读
蛋白质序列鉴定是人类了解蛋白质的第一步,随着基于串联质谱鉴定的蛋白质鉴定技术日趋成熟,高通量、大规模的蛋白质序列鉴定已不再是难题;蛋白质交联技术建立了从蛋白质序列到蛋白质结构和蛋白质间相互作用的一座桥梁,与质谱技术结合的蛋白质交联鉴定使得高通量、大规模的交联质谱鉴定成为可能。
本文首先综述了交联蛋白的鉴定方法,在分析和总结目前已经存在的交联质谱鉴定算法的优点和劣势的基础上,提出了一套完备的交联质谱鉴定算法--pLink,它不仅能够鉴定纯化的蛋白样品,粗打分与细打分相结合的开放式搜索流程也使得高度复杂的样品的鉴定成为可能,同时它有效地利用了交联质谱特有的碎裂规律,并采用了一种简单可靠的假阳率估计与控制方法,使得大规模、高通量、可靠地鉴定交联质谱真正可行。
另外,本文也研究了E-value计算中的背景分数点选择问题,提出了简单的理论候选肽生成方法,并用大量实验证明了该方法的稳定性和有效性,最终这个方法被应用于pLink的E-value计算算法中,并取得了较好的效果。
通过在标准数据集上测试,pLink在小数据库上获得了99%的灵敏度,在大数据库上获得了95%的灵敏度,而且当FDR控制在5%时,获得了非常一致的正确率--95%,这证明了pLink的鉴定效果。同时,它被应用于UTP-B纯化蛋白样品、E-coli全交联样品、Worm全交联样品以及Fib-1免疫共沉淀样品的鉴定中,值得一提的是,它对于E-coli全交联样品的鉴定结果与国际上最好水平相比提高了1倍左右,而Worm全交联样品和Fib-1免疫共沉淀样品是交联质谱鉴定迄今为止所针对的最复杂的样品。
交联质谱鉴定是普通蛋白质序列鉴定的非平凡延伸,是一个源于“一般”的“特殊”问题,对于该问题的研究首先基于对普通蛋白质搜索引擎的学习和继承,而后其研究成果也与普通蛋白质鉴定中的问题互相印证,并可以反馈到普通蛋白质鉴定问题中。