论文部分内容阅读
化学计量学方法与仪器联用技术的结合与快速发展,使人们对复杂多组分体系的分析能力有了很大的提高,不仅可以解决传统分析化学难以处理的化学问题,同时也使分析化学由单纯的提供数据上升为从分析数据中获取有用信息和知识。本论文针对代谢组学与中药等复杂多组分体系分析过程中所遇到的一系列问题展开研究,发展相关化学计量学方法,从复杂的分析数据中挖掘有用信息,实现复杂多组分分析体系的定性定量分析及信息提取与知识总结。本论文的工作主要包括以下五个方面的内容:一、将计算机领域最新发展的模式识别方法——非相关线性判别分析法引入到代谢组学的研究中。该方法通过最大化不同类样本之间的分离度,提取出具有最大判别能力的判别矢量;同时,所得到的判别矢量相互之间非相关,使得信息冗余最小。通过对模拟数据与人体血浆游离脂肪酸含量数据的分析表明,该方法所建立的判别模型明显优于PLS-DA与PCA模型,同时还筛选得到对分类起重要贡献的特征生物标记物。二、首次提出了模糊系统分析法并将其用于1型糖尿病人血清代谢组NMR谱的聚类分析。该方法基于模糊理论,结合了模糊聚类分析、模糊聚类载荷模型以及目标投影选择比值法,将分析数据的聚类分析、结果解释及特征生物标记物筛选集为一体,为代谢组学研究提供了一个完整的数据分析平台。通过对613例1型糖尿病患者的血清代谢组NMR图谱分析,发现了死亡高危人群的聚类,并分析了NMR图谱中与该类别密切相关的谱峰,发现了一系列与1型糖尿病死亡高风险相关的代谢物。三、针对模式识别过程中的变量选择与特征标记物筛选的问题,提出了一种新的变量选择方法。该方法综合了蒙特卡洛交叉效验、无信息变量筛选与偏最小二乘线性判别分析的优点,不仅可以筛选出合适的变量建立一个效果较好的判别模型,还可以给出所筛选变量的重要性排序。利用该方法和常用的UVE-PLSR法对实验模拟混合样本色谱指纹图谱数据及中药材葛根样本的色谱指纹图谱数据进行分析。结果表明,该方法在一定程度上优于UVE-PLSR,筛选得到的变量所建立的模型能很好地对样本的抗氧化活性高低进行判别,找出与抗氧化活性密切相关的物质,同时还确认了相关物质抗氧化活性的强弱。四、针对复杂体系分析中物质定性的难题,提出利用保留时间预测模型辅助色谱联用仪器定性。对如何建立一个好的物质结构-保留时间关系模型的方法进行了有关的基础研究,提出了一种新的建模方法——子空间正交投影建模法。该方法利用了分子结构描述子的特点,提出块变量概念,将一个分子描述子家族中的多个变量看成一个整体,即作为一个块变量;并利用子空间正交投影法消除块变量之间的信息重叠与共线性,从每个子空间提取一个最佳的回归方向并建立较好的保留时间预测模型。与常用的PLSR与PCR相比,该方法所得模型的预测精度更好,模型复杂度更低。同时,还提出利用马氏距离定义模型的有效预测空间,为模型的实际应用提供指导。五、应用交替移动窗口因子分析法解决代谢组学研究中包埋峰物质定性的问题。交替移动窗口因子分析法通过交替地对两个不同的分析体系进行扫描和分析,从两个体系中获得选择性信息;然后利用所得选择性信息对两个体系进行解析,获得其中组分的纯色谱与纯波谱,实现复杂体系甚至是包埋峰体系的定性分析。由于该方法对色谱峰形状没有任何限制,因此使用范围更广。通过模拟数据与真实数据展示了该方法的分析过程与特点。结果表明,该方法是一种有效的代谢组学复杂数据分析手段。