论文部分内容阅读
化学计量学是一门借助于计算机,基于数学方法,通过分析仪器所产生的数据来提取更多的信息的学科。近年来它成功地应用于不同的领域,例如医药、生物和环境等等。多元(变量)数据分析是化学计量学中的重要组成部分,它包括分析传统的矩阵、三维数据以及更高维度的数据。一般而言,多元分析方法都是基于某种假设而建立的,例如数据具有线性结构等。然而在实际的数据分析中,数据常常包含“不健康”的元素,例如异常值、共线性或者噪音。它们的存在会使得多元分析产生的结果不可靠,因此我们需要对多元分析模型的可靠性进行评估。针对多元数据分析,本文提出了一种新的统计学方法来评估分析模型的稳健性,并且将其扩展到三维和四维的数据分析当中,用于估计分析所需的成分数。除此之外,我们利用荧光和高效液相色谱产生的三维数据,对体液等复杂体系中的药物含量进行了定量分析。在高维数据方面,我们提出了一种更为稳健的四维分析方法,并且将其应用到实际数据的分析当中。本文的研究内容概括如下:第二章:主成分分析(Principal component analysis,PCA)是多元数据分析的一个重要工具,然而由于主成分分析的原理是获取数据最大方差的方向,导致主成分分析模型容易受到异常值的影响,产生偏离主要数据的结果,因此我们需要对主成分分析模型的稳健性进行评估。然而在实际的应用当中,对主成分模型的可信度分析却并不常见。本章提出了基于拔靴法(bootstrap)的载荷子空间角度分布(Angle distribution of loading subspace,ADLS)算法来评估模型的稳健性,用于估计主成分数,以及寻找异常样本。本章模拟了含有不同程度的噪音和共线性的数据,利用ADLS对模拟数据进行分析,并且比较了ADLS和常见的主成分数估计方法(交互检验)的分析结果,证实了ADLS能够更加准确地估计主成分数。除此之外,我们还将ADLS用于检测异常值,并且将该方法应用在模拟数据和实际数据当中。结果证明,通过对PCA模型稳健性的估计,ADLS能够有效地估计组分数并且检测异常值。第三章:在二阶校正(三维分析)中,化学秩的估计是一个非常重要的步骤,因为秩估计的结果可以改变三维模型。然而秩估计的结果常常被噪音、共线性以及痕量成分的存在所影响。本章将载荷子空间角度分布(ADLS)方法扩展到三维数据分析中,用来估计模型的稳健性,并且利用模型稳健性的信息来估计三维数据的成分数。ADLS利用bootstrap估计三维模型的载荷的子空间的角度分布,通过角度分布的范围来判断三维模型是否拟合,并且选取使得模型拟合的最大的成分数作为化学秩。我们模拟了含有不同程度的共线性、噪音和痕量成分的数据,比较了adls和核一致法的分析结果,分析结果证明adls分析的结果更为准确。除此之外,我们还将新方法应用于实际数据的分析当中,分析结果证明,adls在复杂的实际数据中依然能够获得更为准确的分析结果。第四章:右美沙芬是一种常见的治疗感冒的药物,但其过量的使用会产生药物依赖性。现在许多年轻人对右美沙芬产生依赖,因此测量右美沙芬及其代谢产物在血液中的浓度显得十分重要。传统的右美沙芬的检测方法一般基于液相色谱等“物理/化学分离”,这类方法需要复杂并且耗费大量人力物力的前处理过程。本章利用三维荧光检测结合平行因子分析(parallelfactoranalysis,parafac)和满秩平行因子分析(full-rankparallelfactoranalysis,fra-parafac)对血液中的右美沙芬及其代谢产物去甲右美沙芬进行定量分析。虽然两种分析物的荧光光谱十分相似,并且血液的内源荧光干扰严重,但是二阶校正算法引入的“数学分离”,使得分析这组共线性严重的数据成为可能,实现了血浆样本中右美沙芬以及去甲右美沙芬快速简单的定量检测。第五章:近年来中药作用机理的研究受到越来越广泛的关注,然而中药的成分复杂,在利用液相色谱等仪器分析其各组分含量或者检测其活性成分在血液当中的含量时,需要耗费大量的精力摸索最佳的条件。除此之外,分析化学工作者常常需要使用复杂并且毒性很强的溶剂或者流动相来获得最佳的分离能力。本章通过二阶校正方法中的交替三线性分解(alternatingtrilineardecomposition,atld)引入的“数学分离”部分替代以及增强色谱的“物理化学”分离能力,快速简便地检测了中成药香砂养胃丸和血浆样本中木香烃内酯和去氢木香烃内酯的含量。为了证明该方法的准确性,我们还使用了价格昂贵并且预处理更加复杂的高效液相色谱-质谱联用方法对结果进行了验证。结果证明,两种方法在统计学上无显著性差异,而本章提出的方法更为简便、绿色以及快速。第六章:尿液中5-羟吲哚乙酸的浓度是许多疾病的检测指标,例如神经内分泌肿瘤。因此我们需要简单高效的检测手段。然而文献报道的检测5-羟吲哚乙酸的技术手段大多是基于“物理化学”分离的。为了获得更好的分离效果,这些方法需要复杂的前处理,不仅耗费人力物力,并且容易影响实验结果。本章检测样本在不同ph下荧光响应,获得四维数据,然后利用多元曲线分辨,平行因子分析和四维平行因子分析法三种不同维度的方法对数据进行了分析。除此之外,我们将秩估计方法-adls,扩展到多元曲线分辨,平行因子分析和四维平行因子的分析当中,引入了张量积,改进了载荷子空间的计算方法。根据adls的化学秩估计的结果,我们比较了多元曲线分辨,平行因子分析,和四维平行因子分析的结果。分析结果说明,在共线性严重的情况下,四维平行因子的分析更为准确可靠。第七章:本章将三维分析算法-自加权交替拟合残差算法(self-weightedalternatingnormalizedresiduefittingalgorithm,swanrf),拓展到四维并且进行改进,通过比较新算法和四维平行因子算法对四维模拟数据分析的结果,验证了新算法不仅能够够获得高阶优势,并且速度更快,结果更加稳健。作者将新方法应用于血浆中血清素的定量分析中,利用样本在不同p H下荧光响应的差异,获得四维数据。这组实际数据的分析结果结果证明新的四维算法能够获取“三阶优势”,并且在共线性严重的数据中获得了准确的分析结果。