论文部分内容阅读
色谱-质谱联用仪器是色谱分离技术和质谱分析技术紧密结合的产物,在环境监测、食品安全、生命科学等领域有着广泛的应用。色谱-联用仪器作为高端分析仪器的一种,其发展与计算机技术密不可分,其数据处理技术的优劣直接影响了分析的效果。色谱-质谱联用仪器主要有两种形式:气相色谱-质谱联用(GC-MS)和液相色谱-质谱联用(LC-MS)。本论文以GC-MS和LC-MS联用仪器的数据分析为研究领域,对于GC-MS,着重研究数据的退卷积算法;对于LC-MS,以目前生命科学分析中最为常用的高效液相色谱-质谱联用(HPLC-MS)为研究对象,以蛋白质分析为着眼点,着重研究了蛋白质肽段保留时间预测模型的建立以及保留时间因子的在蛋白质鉴定中的应用。主要工作内容和创新点包括以下四个方面:1、GC-MS数据折返退卷积算法:在对已有GC-MS数据差分算法分析的基础上,提出了一种色谱峰分离的折返算法,着重讨论了算法中关键要素的选取原则,分析了运算后GC-MS信号对高频噪声的敏感性,通过实验验证了该分离算法的效果。以GC-MS数据的矩阵形式表示退卷积的运算过程,在色谱峰折返分离算法的基础上,提出了一种GC-MS数据的折返退卷积算法,该算法通过矩阵运算实现GC-MS数据中纯净色谱图的提纯,经实验验证该算法可以有效的提取混合物中各个成分的纯净质谱谱图,确定各成分的色谱保留时间。2、基于K-medoids聚类算法的GC-MS数据退卷积算法:当混合物中两种或两种以上被测物质的保留时间相差在一个扫描数内时,传统的GC-MS数据退卷积算法将无能为力,针对这种情况,本论文引入K-medoids聚类算法对GC-MS数据进行处理。K-medoids聚类退卷积算法分为:峰检测、聚类分析和色谱峰形校正三个环节,在峰检测环节提取各个质量色谱图的谱峰;在聚类分离中,对提取的质量色谱峰进行聚类分析以确定混合物中各化合物的碎片离子组成,采用Silhouette指数对聚类结果进行评价;在色谱峰形校正中,对所提取的每一种化和物的色谱峰形进行校正以提取保留时间。对真实的实验数据,采用K-medoids算法和AMDIS算法进行分析,结果证明了K-medoids聚类算法可以有效的分离AMDIS系统无法分离的重叠色谱峰,提取对应化合物的纯净质谱图。3、 LC-MS联用仪器是色谱质谱联用技术的重要形式,蛋白质组学是HPLC-MS的主要应用领域。在蛋白质的鉴定中,肽段的保留时间可提供除质荷比以外的另一维信息,提高鉴定的准确性,因此需要建立蛋白质肽段的保留时间预测模型。本文中模型的建立分为三个阶段:(1)以小样本数据集建立了C18色谱柱条件下以TFA为离子配对试剂时蛋白质肽段保留时间的初级模型。(2)随后采用大样本数据集,分析了肽段长度、氨基酸位置、邻位效应、氨基酸聚簇效应对肽段保留时间的影响,进一步优化了预测模型。(3)半胱氨酸(Cys)的烷化是蛋白质分析中不可或缺的一环,在预测模型中分别修正了碘乙酰胺、碘乙酸、4-乙烯基吡啶、丙烯酰胺和甲基三硫醚五种常用烷化剂修饰下以及未被烷化修饰的半胱氨酸的保留时间因子。4、通过对蛋白质保留时间预测模型中各个氨基酸保留时间因子的分析,提出了一种通过不同酸性离子配对试剂的组合进行二维HPLC分离不同带电荷数肽段的方法,经实验证明在二维HPLC中使用不同酸性离子配对试剂组合可以实现蛋白质不同带电荷数肽段的分组洗脱,基于这一分离作用,提出了一种通过二维HPLC富集蛋白质首末端肽段的方法。以人Jurcat细胞和白蚁梭菌细胞为样品,通过实验验证了该方法可以有效的实现蛋白质的羟基端和羧基端肽段的富集,从而为蛋白质的快速准确鉴定提供了一种新的途径。