论文部分内容阅读
定量蛋白质组学主要研究复杂生物体内的蛋白质表达量的变化情况。正常表达的蛋白质可以保证生物的新陈代谢、维系生命,表达量不正常的蛋白质会导致如癌症等严重的疾病。定量蛋白质组学的技术与成果可以应用于发现新的生物功能,可以用于寻找疾病标记物,可以发现治疗疾病的靶标蛋白质。定量蛋白质组学的关键技术之一是使用生物质谱技术将蛋白质在生物体内的表达量信息“数字化”,即产生质谱数据,而后通过解析质谱数据中的信息,还原生物体内蛋白质的表达量情况。本文即是对基于生物质谱技术的定量蛋白质组学数据解析开展研究。 经过二十多年的发展,定量蛋白质组学的相关技术取得了长足的进步,但是,在面向临床、面向应用的实践中遇到了很多困难。具体到数据解析环节面临的关键计算问题有:(1)在解析数据时需要提取精确的肽段信号。(2)现有软件给出的肽段或蛋白质的定量比值不够准确。(3)缺乏对定量比值的准确性进行系统评价的算法。另外,要解决实际问题,还需要开发鲁棒实用的定量软件,并与其他质谱数据分析软件整合,形成完整的数据分析平台。本文重点探讨了上述关键计算问题,提出自己的解决方案,编写了蛋白质定量软件pQuant,并进行了充分的实践检验,其主要贡献总结如下: 1、精准提取肽段信号,选取干扰最小的部分用于计算定量比值。定量蛋白质组学的研究对象都是复杂样品,一次进入质谱仪的肽段可能多达10万条,另外还有空气、试剂以及材料引入的各种杂质,他们在质谱仪中的信号会重叠在一起。我们观察到肽段在质谱一级谱图中的信号以同位素峰簇的形式存在,并在保留时间一维有从低到高再到低的趋势。只有充分利用这些信息才有可能区分重叠在一起的信号。以往的定量数据解析软件往往只关注“同位素峰簇”一维信息,或只关注“保留时间变化趋势”一维信息,或同时关注两维信息但没有进行深入的挖掘。这样,提取的肽段信号中往往包含干扰,最后得到了不准确的定量结果。我们首先重构“同位素色谱曲线”,并设计算法,选择干扰最小的同位素色谱曲线,用于后续计算比值。 除此以外,本文对信号提取各细节步骤和问题均进行了深入分析,包括:一级谱峰中心化,计算肽段理论同位素分布,确定实际同位素峰,重构色谱曲线,保留时间对齐,计算标记效率等。 2、全面综述了目前的定量比值计算方法,并在此基础上,提出了基于最小一乘法的局部线性拟合分析方法。目前可以用于计算比值的方法有接近10种。已有的软件在设计、使用各方法时大都依靠人工经验,极少对问题进行数学建模,并缺乏对其解法的深入讨论。本文对几乎所有的比值计算方法进行了深入分析、比较了各自的缺点,并设计了一套新的计算方法。在模拟数据以及真实数据上,该方法均可以得到更准确的定量比值。 另外,我们使用置信区间来评价比值的准确性。首先给出了肽段比值的置信区间,而后使用核密度估计方法,计算蛋白质的比值和置信区间。该方法不需要用户再划定肽段“准确”和“不准确”比值的阈值,所有肽段都可以用于计算蛋白质比值,所有蛋白质都有比值。与此同时,可以有效减少不准确肽段比值对蛋白质比值的影响。另外,本文提出的蛋白质比值置信区间可以用于后续生物学分析,得到正确的结论。 3、为了检验和评估算法,我们制备了一批较大规模的数据集,分别是15N标记的E.coli数据和SILAC标记的HeLa细胞数据,每批数据均有7种混合比例的样品,可以作为领域内的标准测试数据集。我们将pQuant与MaxQuant、Census这两个同类软件进行了对比。MaxQuant和Census两个软件均发表在Nature系列杂志上,代表目前已有软件的最高水平。在SILAC数据集上,Census的肽段“非数”比值能占到比值总数的2.5%到10.7%,MaxQuant的肽段“非数”比值能占到比值总数的1.8%到2.7%,pQuant只有0.01%到0.5%。在15N标记数据集上,Census和pQuant分别输出了0.9%到10.0%和0.3%到2.9%的非数肽段比值。除去“非数”比值,对比其他比值的标准差,Census和MaxQuant比pQuant大30%到100%。pQuant的定量精度有明显的提高。 4、在这些研究的基础上,我们将pQuant用于寻找差异表达蛋白质。这是对定量蛋白质组学数据解析各成果的综合考验与实践。本文分别将daf-2和daf-2;daf-16两种线虫的线粒体蛋白质与N2线虫的线粒体蛋白质进行了对比,最后报告147个蛋白质在daf-2、N2线虫线粒体中是差异表达的,135个蛋白质在daf-2;daf-16、N2线虫线粒体中是差异表达的。 未来的研究,我们将着眼于3个方面:(1)继续优化定量数据解析算法。(2)提高pQuant的软件易用性,支持更多的定量实验数据解析。(3)推进定量蛋白质组学研究向生物研究前沿以及临床应用发展。