论文部分内容阅读
质量控制是大规模蛋白质组数据分析中关键问题之一,而目标-诱饵搜索策略是目前质量控制中的主流策略。该策略支持绝大多数搜库引擎,并且大多数质控工具也是基于该策略发展的模型和算法。但是该策略只能按照错误发现率(False Discovery Rate,FDR)进行卡值,却不能确切估计卡值之后所鉴定到的肽段谱图匹配中究竟有多少是假阳性匹配。为弥补此缺陷,本研究在目标-诱饵搜索策略的基础之上发展了陷阱序列法以建立评估蛋白质组数据分析流程的客观标准。目标-诱饵搜索策略仅仅将样本序列(A)作为目标序列库;而陷阱序列法是向样本序列(A)中掺入与样本序列同源性极低的陷阱序列(B),并一起构成目标序列库;然后将目标序列库通过反转的方式构建诱饵序列库(A’+B’),通过加入不同的标签以识别鉴定结果来自(A/B/A’/B’)中哪一个序列库。本研究围绕陷阱序列法作了如下两方面工作:1.发展了陷阱序列法。本研究以嗜热菌数据集作为样本分析,下载了对应的嗜热菌序列作为样本序列;下载了人的序列作为原始陷阱序列,通过随机化原始陷阱序列构建出13种不同大小的陷阱序列;这13种不同大小的陷阱序列分别与样本序列结合以构建用于搜库鉴定的13种目标序列库,以此探讨陷阱序列的大小对评估效果的影,研究发现陷阱序列是样本序列的10倍时效果较好。本研究同时定义了陷阱序列法中的评估指标—错误匹配率(False Match Rate,FMR)并推导出计算公式。2.采用陷阱序列法评估了蛋白质组数据分析流程中搜库鉴定和质量控制两个关键步骤。根据研究1的结果,先构建陷阱序列10倍于样本序列的目标序列库;以标准数据集和实验数据集作为样本分析,首先评估搜库引擎的原始打分,继而评估四种质控工具,然后评估搜库引擎质控之后的重新打分;本研究也提出了整合多搜库引擎和质控工具结果的一种策略;最后探讨了使用小比例的陷阱序列进行评估的可能性(陷阱序列同倍于样本序列)。本研究发现MS-GF+的原始打分及重新打分在五种搜库引擎中表现最好;PepDistiller在四种质控工具中表现最好;将鉴定结果进行分组并根据FDR进行二次过滤可以增加鉴定结果数目并提高鉴定结果的可靠性。本研究将为研究人员在选择搜库引擎和质控工具进行蛋白质组数据分析时提供一个合理的参考;进而规范化蛋白质组数据分析流程。