论文部分内容阅读
蛋白质鉴定是蛋白质组学研究的基础问题之一。串联质谱技术和数据库搜索已成为自底向上蛋白质鉴定策略的常规技术手段。为了鉴定蛋白质序列,首先需要鉴定由蛋白质酶切产生的肽序列。可以说,肽鉴定模块是蛋白质鉴定软件的核心,而将肽序列与串联质谱关联起来的肽打分函数,则成为肽鉴定的关键。本文研究的重点就在于如何利用统计学习技术来设计肽打分函数以及提高肽打分函数的性能。
为了衡量各种肽谱匹配特征的重要性,找到最具代表性的肽谱匹配品质描述指标,从而基于这些特征构建肽打分函数,本文首先提出了一种基于支持向量机-逐步特征排除算法(SVM-RFE)的肽谱匹配特征重要性排序方法。在已有的针对肽鉴定的工作中,肽谱匹配特征主要用于肽鉴定结果的后续评价和验证,对于它们的重要性以及能否直接用于肽打分函数,并没有相关工作进行考查。本文提出的方法利用线性排序支持向量机的权重向量,对肽谱匹配特征的重要性进行排序。同时通过一次去掉一个的特征排除过程,能够观察到某个特征对线性肽打分函数的贡献程度。实验表明,对于肽打分函数来说,实验谱峰强度匹配比例IntenRatio、理论碎片离子匹配比例IonRatio和匹配碎片离子的连续互补性CnscCmpl是最为重要的三个肽谱匹配特征,这三个特征足以将训练集中99%以上的正确肽序列排在候选肽列表的首位。
基于肽谱匹配特征重要性排序的结果,本文提出了一个利用实验谱峰强度匹配比例IntenRatio和理论碎片离子匹配比例IonRatio构造的肽打分函数i2Score。在肽打分函数中尝试了上述两个特征的乘积和加和两种运算形式。通过实验比较,发现乘积形式具有更高的灵敏度和正误匹配区分度。在三个不同类型数据集上的对比实验表明,i2Score的肽鉴定性能要显著优于同样基于相似性度量的SEQUEST肽打分函数。在1%的假发现率条件下,在谱图水平,i2Score能多鉴定出17%到78%,而在非冗余肽水平,i2Score能多鉴定出13%到45%。同时,还与Mascot以及本文课题组先前提出的KSDP肽打分函数进行了比较,i2Score的性能也表现出一定的优势。
反相高效液相色谱和串联质谱联用是蛋白质鉴定中常用的分析技术。反相色谱用来分离肽混合样品,不同肽序列所具有的不同理化性质,会导致其在色谱柱中的保留时间不同。肽反相保留时间是可以根据其氨基酸序列进行预测的。已有许多工作致力于预测反相色谱条件下的肽保留时间,并取得了较好的预测效果。实际保留时间和预测保留时间的差异可以用来度量肽序列的可靠性。虽然目前已存在许多种肽打分方法,但是融入保留时间信息的肽打分函数仍是不可用的。为了进一步提高上述打分函数的肽鉴定性能,本文将肽的实际保留时间和预测保留时间的差值Diff融入一个新的肽打分函数i2rScore,这个打分函数是i2Score、Δi2(见3.2.2小节)和Diff的线性组合。线性组合的权重向量通过在特定质谱数据集上训练的线性分类SVM模型来动态确定。实验表明,与i2Score肽打分函数相比,i2rScore能够提高10%以上的谱图鉴定数和非冗余肽鉴定数。