论文部分内容阅读
蛋白组学试图从整体上系统地研究生命活动的功能分子-蛋白质。由于生物系统中蛋白质表达丰度的动态范围超过了6个数量级,物理化学性质差异很大,所以,蛋白质组研究需要高通量、高灵敏度的分析仪器的支持。生物质谱具有这种特点,因此成为了蛋白质组研究的支撑技术之一。由于检测样品和实验原理的复杂性,质谱数据带有复杂的噪声,并且会受到实验过程中随机因素的严重影响,导致质谱数据分析一直是蛋白质组数据处理的难点。数据库搜索是目前质谱数据分析的主要方法,其基本思想是,将实验获得的图谱和数据库中酶切肽段的理论图谱进行比对,按照一定的打分算法,找出数据库中与实验图谱最匹配的肽段或蛋白质,这种匹配关系以及搜库软件提供的度量匹配质量的分值就构成了基本的搜库结果(又称肽段鉴定结果)。可以看出,搜库结果是在某个候选集合中寻找的最优匹配,但却并不一定是正确的,再加上计算复杂度大,自动化的搜库软件对图谱的解释一般比较粗糙,并且缺乏有效的结果可信度评价方法,数据质量控制问题十分突出。目前,质谱数据质量控制面临着以下几个困难:(1)在很多蛋白质组研究中,需要整合多来源、多质谱平台和多种数据处理软件的结果,需要一种统一的数据可信度评价体系;(2)由于实验原理的复杂性,从理论上推导肽段和图谱匹配的概率模型比较困难,数据质量控制中所使用的很多模型,都是从数据中通过观察、统计、拟合以及学习的方法获得的,建模工作依赖于特定的数据集,模型的推广性需要广泛的数据验证;(3)质谱数据复杂性的表现之一是图谱数据的统计特征会随实验条件、环境因素以及分析样品的变化而变化,这给从数据中建立具有一定推广性的算法模型带来了不小的困难;(4)质谱实验涉及种类繁多的物理化学机制,导致数据的“子类”情况特别多,建立统一、简单的搜库结果评估模型比较困难。目前,搜库结果的质量评价参数多种多样,这些参数从不同方面度量了搜库结果的质量。多元信息融合和综合判决是数据质量控制研究所必须面对的问题;(5)高通量的实验技术产出的数据量很大,给数据处理带来了不小的工程计算问题。本文针对蛋白质组中串联质谱数据搜库结果质量控制所面临的上述困难,以满足工程急需为原则,运用统计分析的方法,从数据库搜索参数优化,特征提取、优化和选择,基于随机数据库搜索的搜库结果验证等方面开展工作,研究了串联质谱数据搜库结果的质量控制问题。本文的研究目的在于,提高数据质量控制方法的灵敏度和分辨率,力图解决模型推广性和通用性等工程实践问题,为人类肝脏蛋白质组计划(Human Liver Proteome Proiect,HLPP)的数据分析提供技术支持和分析结果。本文的主要工作包括:(1)数据库搜索参数优化。数据库搜索是串联质谱数据搜库结果的质量控制问题的研究基础。在数据库搜索中,有一些需要用户指定的参数,其中有的参数可以决定一张图谱在数据库中的候选肽段集合,对搜库结果影响很大,例如,母离子质量误差容限和酶切参数。这些参数由仪器特性和实验的物理化学原理决定,并且与仪器运行状态、实验设计和样品复杂程度有关,不同的数据集需要根据实际情况慎重选择优化的搜库参数。目前,在蛋白质组数据分析中,很多搜库参数采用的是经验值或者仪器制造商的推荐值,缺乏根据用户数据集确定搜库参数的策略和方法。在实际数据分析中,通过试探性搜库,然后对结果进行统计分析,可以有针对性地优化搜库参数或者给出参数的确定方法。另外,已经有很多实验设计比较严密的标准数据集发表,利用这些数据集和数理统计的方法,也可以对搜库参数进行分析和优化。本文以标准蛋白质(control proteins)的数据集为分析对象,采用改变参数进行多次数据库搜索和数理统计的方法,分析了母离子质量误差容限、碎片离子质荷比误差容限、酶切方法等参数对搜库结果的影响,给出了这些参数的确定方法或者推荐值。在这些研究中,本文提出了从带有噪声的数据中估计母离子质量误差容限和碎片离子质荷比误差容限的方法;改进了高精度的傅立叶变换质谱仪的母离子质量校正公式;发现了碎片离子的质荷比误差随信号强度变化的规律,从而提出了一个根据相对信号强度确定误差容限的经验公式;分析了碎片离子质荷比误差容限对搜库分值的影响,从而给出了其确定方法;分析了漏切位点和酶切端数目对搜库结果的影响,为这2个参数的指定提供了参考。另外,本文还提出了扩大搜库误差容限,然后过滤搜库结果,利用分布拟合的方法确定统计意义上的母离子误差容限,再对全体结果进行过滤的数据处理策略。分析结果表明,这种策略可以有效提高搜库软件采用的参数的分类能力。(2)搜库结果质量控制的特征提取。搜库结果的质量控制是典型的模式分类问题,特征提取和选择是模式分类的基础工作。本文系统地总结了搜库结果质量控制的常用参数,将它们分为3类进行分析,包括常用的搜库软件SEQUEST提供的搜库分值、肽段和图谱的基本参数、不同文献中提出的经验参数。另外,对于特征计算相关的问题,例如理论图谱的产生,特征分类能力的度量等,本文也进行了比较深入的分析。在这一部分的研究中,通过文献阅读和对质谱实验背景知识的了解,再加上使用标准数据集进行数据“试验”,本文优化了一些特征的计算。对另外一些特征计算的实际问题,例如,肽段色谱保留时间预测模型的应用,提出了具体的解决方案。使用聚类分析和启发式知识,对特征之间的关系进行了分析。在此基础上,根据本文使用的不同分类方法的特点,给出了特征选择的建议规则。(3)基于随机数据库搜索的搜库结果验证方法研究。目前,在蛋白质组实验研究中,基于随机数据库搜索的肽段鉴定结果验证方法已经得到广泛应用。这种方法能够为不同样品、搜库软件、质谱平台、实验条件下的数据提供统一的质量控制框架。但是,基于随机数据库搜索方法的多个应用问题,还没有得到很好的解决,也缺乏方法性能评估的研究。在这一部分的研究中,本文首先提出了一种随机数据库的构建方法,通过实际搜库验证,发现这种方法可以很好地避免重复肽段问题,并且得到的搜库分值分布也能比较好地模拟正常数据库中的随机匹配的分值分布。在此基础上,本章研究了从简单到复杂的4种搜库结果验证的分类决策方法:提出了线性判别函数法(LDF法)、基于多元非参数概率密度函数拟合的方法和基于贝叶斯非参数模型的方法,改进了基于ln(Xcorr)和△Cn1/2的边缘分布拟合的方法。这些研究共同的目的是,解决基于随机数据库搜索方法的判别函数选择和特征融合问题,以提高搜库结果过滤方法的灵敏度。其中,本文提出的线性判别函数法性能比较好,也比较简单,容易被实验人员所接受,在中国人肝脏蛋白质组计划的数据分析中已经得到应用。而基于ln(Xcorr)和△Cn1/2的边缘分布拟合的方法和线性判别函数方法得到的结果基本一致,判别边界也十分接近。基于多元非参数概率密度函数拟合的方法和基于贝叶斯非参数模型的方法都使用了多个特征,方法的灵敏度得到了很大程度的提高。利用标准样品和实际样品的实验数据进行的验证表明,本文提出和改进的这4种方法比已有的搜库结果验证方法具有更高的灵敏度,并且在标准样品数据集上能够获得比较准确的假阳性率估计。另外,通过和PeptideProphet进行比较发现,基于随机数据库的方法在不同的数据集上都能够取得比较好的结果,模型具有比较好的泛化性能。总之,本文针对质谱数据质量控制中数据量大、特征分布可变、噪声复杂等特点,通过大量的数据统计分析,揭示了串联质谱数据质量控制的一系列问题和困难。在此基础上,通过对串联质谱数据处理各个环节的研究,包括搜库参数的优化,搜库结果验证的特征提取和选择、基于多元特征融合、非参数概率密度函数估计的搜库结果验证方法等方面,在很大程度上克服了串联质谱数据搜库结果质量控制的困难,提高了数据质量控制方法的灵敏度和鲁棒性。本文的研究成果在HLPP数据分析中已经得到了应用。