论文部分内容阅读
质谱已经成为蛋白质组学研究的核心技术。质谱数据是蛋白质组信息挖掘的主要源头,质谱数据解析则是蛋白质组生物信息学的研究重点。如何从相对简单的物理信号解析出肽段和蛋白质的各种信息,并且延伸至具体的生物学问题,是蛋白质组质谱数据解析必须要面对的巨大挑战。本文围绕蛋白质组质谱数据解析中的关键问题做了如下几方面工作:(1)肽段同位素峰检测的基本特性研究。肽段母离子的同位素峰存在于一级图谱中,研究其单个同位素峰和同位素峰簇的基本特性是深刻认识和准确解析质谱数据的基础。本文以高分辨率质谱平台产出的数据为研究对象,经过大量的探索性分析,摸清了离子采样、峰宽和峰形,以及同位素峰簇的组成和丰度表示等肽段同位素峰的基本特性,为后续进一步的质谱数据解析奠定了良好的基础。这包括:给定质谱平台上离子峰宽与其质荷比呈多条二次曲线分布;在同一质谱平台上两者之间的函数关系具有可重复性,但在不同质谱平台上不具备可重复性;所有离子采样点数的频率分布与同一质荷比的多个母离子采样点数的频率分布均接近高斯分布;就同一质荷比的母离子而言,母离子峰的采样点数与其峰强度呈正相关,而与RT时间呈比较弱的负相关;应用考虑背景噪声时的高斯函数与单个同位素峰的峰形拟合效果最好;同位素峰簇组成峰个数与肽段的丰度、质量和RT时间等属性均呈正相关;最高峰强度表示的肽段同位素峰分布更接近理论同位素分布。(2)肽段同位素峰丰度分布误差研究。肽段同位素峰丰度测量精度是反映质谱仪器性能的一个重要指标。对肽段同位素峰丰度分布误差的研究有助于揭示质谱数据产出过程中存在的问题,从而为提高现有的数据解析方法和改进仪器性能提供线索。本文通过选取峰最大值作为单个同位素峰的定量指标,从不同角度考察了肽段同位素峰丰度误差分布,掌握了包括单个同位素峰归一化误差、局部平均误差和所有同位素峰总体误差,以及不同同位素峰丰度误差之间的相关性等在内的肽段同位素峰的丰度误差特性。这包括:与加和误差和乘积误差模型相比,归一化误差模型灵敏度更高;局部平均误差的计算减小了随机误差,凸显了系统误差的存在;利用两个核函数的混合高斯分布能够有效拟合所有肽段同位素峰丰度误差分布;不同次序的肽段同位素峰之间存在不同程度的相关性;高丰度同位素峰对低丰度同位素峰的抑制作用可能是系统误差和同位素峰之间相关性存在的内在原因。(3)肽段同位素峰丰度误差校正及应用。由于肽段同位素峰丰度值代表了肽段的定量信息,所以肽段同位素峰丰度测量误差也必然影响肽段定量精度。本文从不同角度出发,提出了两种同位素峰丰度误差校正算法,即比值误差校正算法和多元线性回归的迭代校正算法。利用多个实验数据集评估了两种校正算法的性能,结果表明比值误差校正算法能够很好地消除系统误差,但是对定量性能的提高比较有限;多元线性回归迭代算法在消除系统误差方面不如前者,但是对定量性能的提高更加有效。(4)泛素/类泛素修饰位点鉴定方法的改进优化研究。泛素/类泛素与靶标蛋白质结合以后,经过蛋白质酶的酶切作用,通常在修饰位点上残留一个氨基酸长链,给其修饰位点鉴定带来了很大的困难。本文总结了现有方法的不足,提出了一种改进的Ub/Ubl修饰位点鉴定工作流。利用两个公开的类泛素修饰数据集评估了改进后的工作流,结果表明相比原始Chop NSpice方法,改进后的工作流能够更无偏和灵敏地鉴定类泛素修饰肽段和位点;组合库策略既能够节省人工验证所需的时间,又能够减少假阳性鉴定结果;可变修饰策略能够自动地对修饰位点进行精确定位。因此,改进后的工作流更适合分析大规模泛素/类泛素修饰数据。(5)应用改进后的工作流实现了对类泛素FAT10修饰位点的首次鉴定。本文在建立改进的泛素/类泛素修饰鉴定工作流以后,与北京蛋白质组研究中心合作,将改进的工作流应用到大规模FAT10修饰数据分析,在国际上首次实现了对FAT10修饰位点的鉴定。FAT10修饰位点倾向位于亲水性氨基酸富集的区域,而仅在+2位置与类泛素SUMO修饰序列的保守性较一致。基于标准数据库搜索和无标记定量技术共鉴定到175个FAT10靶标蛋白质。对鉴定到的靶标蛋白质进行功能分类,发现FAT10靶标蛋白质在蛋白质转运、折叠、RNA加工、复杂大分子组装、基因表达的转录后调控、蛋白质定位、细胞凋亡调控和高尔基体囊泡出芽等生物学过程中发挥着重要作用。