论文部分内容阅读
数据库搜索方法是最主流的蛋白质鉴定方法,在使用搜索引擎进行蛋白质搜库过程中需要指定进行搜索的数据库。通常的搜索方式下,需要选择该质谱数据所属生物的蛋白质数据库。如果该生物没有相应的蛋白质数据库,则可以根据基因测序结果构建六阅读框或三阅读框翻译数据库。UniProt全库作为包含所有物种蛋白质的数据库,理论上也能帮助未测序物种进行蛋白质鉴定。但领域内普遍认为大数据库会引入大量额外的竞争者,特别是UniProt全库相对于单一物种的数据库而言,存在大量非真实蛋白质,极有可能导致数据库搜索灵敏度成倍下降[1]。本文认为,导致大库搜索灵敏度降低的主要因素并不在于数据库规模的增长,而是在于搜索引擎的打分和鉴定能力。本文针对高精度质谱仪QExactive采集的酿酒酵母数据[2]使用pFind[3]、PEAKS[4]和MaxQuant[5]三种经典搜库软件的限定式搜索模式搜索UniProt全库(包含553,474个蛋白质)并对蛋白质鉴定的灵敏度进行了比较。该酵母数据使用Max Quant搜索酵母已注释库能鉴定到4,570个有特异肽段对应的蛋白质(以下蛋白质均指有特异肽段对应的蛋白质)[2]。在UniProt全库搜索下,pFind引擎鉴定到4,334个酵母蛋白质,PEAKS引擎鉴定到4,207个酵母蛋白质,Max Quant只鉴定到824个酵母蛋白质。pFind、PEAKS和MaxQuant三引擎的鉴定灵敏度分别为95%、92%和18%,搜索时间分别为14.5(4线程)、23.5(线程数未知,不可设置)和22.5小时(8线程)。实验结果表明,不同搜索引擎在不同规模数据库上的搜索结果的确存在显著差别,pFind引擎在灵敏度和速度方面均具有一定优势。