论文部分内容阅读
自从上世纪末蛋白质组学概念提出以来,基于质谱的大规模蛋白质分析逐渐成为最重要的蛋白质组学分析手段之一。串联质谱是一种能够在短时间内从蛋白混合物中鉴定出其组分的有效方法。但正是其高通量的特性以及数据的复杂性使得后续的数据分析有赖于生物信息学工具才能完成。目前分析串联质谱数据使用得最多的是基于数据库搜索的鉴定算法,已有的包括商业化的软件SEQUEST、Mascot,开源的包括OMSSA、X! tandem等都能对串联质谱数据进行鉴定分析。因为肽段碎裂后产生的二级谱图含有很大量的噪音,并且目前对于肽段碎裂(CID)的过程了解得不是十分透彻,所以质谱的数据分析是蛋白质组学的难点之一。因为谱图通常含有很多噪音谱峰,以及蛋白序列数据库不包含可变剪接、翻译后修饰和突变等情况,一般情况下得到的结果都有大量的假阳性。所以如何在保持假阳性率不变的情况下得到更多的鉴定结果逐渐成为热门的研究课题。决定谱图解析效果的最重要因素在于打分方程的设计,打分过程一般可以归纳为两个步骤:第一步通过比较理论谱与实验谱的相似性得到一个度量相似性的分值,这个分值用于区分所有与实验谱进行打分的肽段的相似性程度,一般情况下只考虑分值最高的肽段为可能的正确结果;第二步是确定分数最高的结果在这次数据库检索中的可靠性有多高,一般采用随机匹配的概率进行度量。但以往的算法往往只侧重于考虑了其中的一方面,如SEQUEST只考虑了相似性的度量,而没有考虑可靠性的度量,Mascot和OMSSA则在打分方程的设计中只利用了较少的谱峰信息等。随着质谱实验数据的增加,越来越多的实验谱图被解析并构建了谱图数据库,除了利用蛋白质序列数据库进行谱图的鉴定,利用谱图数据库鉴定质谱数据也成为一种新的解析方法。实际上基于质谱的蛋白质组学分析早已不是停留在谱图的解析这一层次上,修饰谱的分析为进一步揭示蛋白调控机理提供了有效信息。如上所述基于质谱的蛋白质组学分析已经形成了一整套的分析流程,包括数据预处理、谱图的解析、蛋白修饰的鉴定、蛋白定量分析等。目前已有成套的分析算法完成整个的分析流程,如Mascot等,尽管这些方法使用方便,但因为算法的缺陷性,并不能获得最好的鉴定结果。本文针对以上问题分析影响鉴定效果的因素,从鉴定开始包括分析串联质谱数据的预处理,比较分析几种鉴定算法的优劣,修饰鉴定的选择等,目的在于探索如何利用现有的工具最大化地从实验数据中提取出有效信息。结果表明在去除了二级谱图的同位素峰后,X! Tandem和ProteinPilot两种软件鉴定效果均有提升,在使用X! Tandem时如果数据库太小,可以通过增加诱饵库的大小来提升鉴定效果,结合搜索谱图库和序列数据库可以增加鉴定到的肽段数量。