论文部分内容阅读
在最近的几十年,研究者手上拥有越来越多的仪器设备对客观对象进行更加深入的研究。毋庸置疑,分析化学家一次实验只能获得一个数据的时代一去不复返;而另一方面,单次实验所能获得的数据不但巨大,而且总量上依然在增长中。在化学及其交叉领域的研究中,非常需要一系列的高效工具来处理这些海量的数据。这正是化学计量学方法迅速发展的客观原因。研究者在分析化学的相关研究中,不但希望能获得充满物理/化学意义的定性信息,还希望能同时获得足够的定量信息来进行分析研究。经典的零阶校正无法处理系统中有相互干扰的情况;而一阶校正方法在白色体系中有出色的性能,然而在灰色、黑色系统中则效果一般。而基于三线性分解的二阶校正策略则具有唯一性以及“二阶优势”。二阶优势则能确保即使存在未知干扰的情况下,研究者依然能同时获得感兴趣组分的定性定量信息。本论文的实验部分将讨论三线性分解算法在动态和多态系统中的应用潜力,同时论述在理论方面如何通过基础算法理论研究来支持适应新体系、新情况的算法开发。(1)在第二章中,提出了一个具有原创性的算法分析工具——误差传递结构(error Transmission Structure, ETS)用以分析迭代型三线性分解算法的特性。ETS分析虽然推导过程复杂,却能够较清晰解释ATLD (Alternating Trilinear Decomposition)和PARAFAC (Parallel Factor Analysis)算法的特性,如收敛速度、超估计组分的敏感性、分辨结果的质量。相较之下,从拟合残差方面来研究算法,很难清楚解释算法的各个特性,因为无论组分数估计正确与否,该指标一般都是收敛的。在ETS的分析中能发现,组分数敏感的原因是由含有组分矩阵偏差的中间项所决定。PARAFAC算法的ETS中间项会在组分数超估计的条件下形成一个剧烈的摄动,在极接近客观解的位置形成高高的“城墙”阻止算法接近客观解。在组分数估计正确的情况下,ETS的最后一项显示出,在算法靠近客观解的时候,该项反而是增大的,说明了模型中的残差(含有干扰、噪声等非三线性成分)对结果的精度有一定的影响,但如果噪声水平不高则影响不大。如果组分数超估计,虽然算法在动态跟踪中的总体现象不大相同,在细节上却有一些相似的行为,这可能是开发统一的组分数估计方法的重要提示。而本章研究中发现的算法搜寻最优解的地形发生变化的现象,则直接促成了第三章从“解空间形状”入手的微分研究。(2)在第三章中将介绍基于矩阵微分分析的算法分析工具。矩阵微分分析可以清楚地阐明算法的优化策略,并且直观地判断解空间的情况。对各个算法的微分分析有助于梳理高效算法程序开发的思路。在微分分析结果中,如果算法的目标函数的形状是“凸”的,则对应的算法就对超估计组分数敏感;如果算法的目标函数的形状是“严格凸”的,则对应的算法对超估计组分数不敏感。本章提出的“解集”概念,进一步完善了关于三线性分解“唯一性与不唯一性”的理论。即使组分数超估计,客观解依然是在目标函数的可行解当中,并且有可能是全局最小。为什么有一部分算法能够在组分数超估计的情况下依然能到达客观解,而另外一部分则不能,微分分析和ETS都给出了有效的解答。(3)在第四章中将讨论对3-甲基吲哚的(MI)的荧光多态性的定量研究。MI是天然蛋白的重要内源信号部件,其荧光多态性使得它的光谱富含化学信息,然而其光谱的分析却非常具有挑战性。三线性分解方法则有可能胜任该复杂光谱的分析,并且提供对MI的氢键相互作用更加深入的理解。同时考虑激发与发射荧光光谱,并且构造成三维数据阵,最终利用ATLD算法进行定量分析,则有助于对MI的氢键作用进行原位的分析。首先,充分地利用实验收集到的激发光谱能包含充分的信息去分析覆盖在强作用背景下的弱相互作用。其次,三维数据阵的三线性分解具有唯一性可以保证计算得到的光谱具有实际的物理意义。最后,ATLD算法能够在不影响体系的复杂化学平衡的前提下,定量分辨出相互作用体系中各个荧光态对应的光谱,并最终对MI与其它分子的氢键相互作用进行有效的研究。细节的研究将利用MI的两个能量最低的激发单重态aLa和’Lb的荧光发射特性来进行详细的相互作用研究。’La和’Lb的荧光发射取决于MI与其它分子作用以及周围微环境的情况。从定量信息中计算出来的氢键作用参数与过往理论模拟工作的结果进行了有效的比较。(4)在第五章中尝试从稳态荧光信息中分离出时域的变化,并籍此来对α-chymotrypsin (CHT)的开关状态进行定量讨论。荧光探针ANS (1-anilinonaphthalene-8-sulfonate)具有两种状态,并且对应着两个不同的荧光激发-发射过程。激发-发射矩阵荧光光谱(EEM)能够记录ANS-CHT体系中的全部荧光信息,虽然它只是一个稳态的荧光技术。并且,将多个样本的EEM光谱数据构建成三维数阵经过三线性分解处理之后,可以提供对应于激发过程的激发光谱、对应于发射过程的发射光谱以及与这些时域过程对应的定量信息。因此,该思路不但可以讨论ANS的激发发射过程,并且能够对CHT的开关状态进行定量讨论。ANS的S1,ct态荧光对周围溶剂的微环境十分敏感,从而可以成为指示CHT活性的探针。本实验最终获得了ANS-CHT体系在相当宽的pH范围内的开关响应曲线。本研究提供了一种经济而且方便的用于研究蛋白状态改变的研究方案。(5)在第六章中,不同的三线性分解算法对多样品构成的LC-MS数据的适用性进行了详细的讨论。本测试研究中使用的是一套含有一个低丰度肽段LC-MS数据。基于双线性策略的方法并不能胜任处理这种含有低丰度信号的数据体系,并未能获得预期的数学分离效果。而目前常用的三线性分解算法亦不能直接用于LC-MS数据。其主要原因可能是由于一个化学物质的纯质谱图具有稀疏性:在有离子信号的质荷比(m/z)坐标上为一正值响应,而在其它位置为严格的0值。为了实现有效的具有物理化学意义的数学分离目标,本文作者提出了新的NNATLD算法(Non-Negative Alternating Trilinear Decomposition)。该新算法很好的适应了质谱数据的特性,并且节约计算资源,还具有收敛速度快的特性。(6)在第七章的研究着重讨论了LC-MS数据的内在联系,该联系在过去传统的研究工作中并未得到系统的重视。该内在联系是多线性关系,并且能用三线性、四线性甚至多线性分解进行高效处理。为了高效的处理LC-MS数据构成的三阶张量,本章使用了第六章中提出的新算法,该新算法能够同时获得定性定量结果。算法的分辨能力能够从数学分离的角度极大地提高色谱系统的峰容量,最终使得结合了“数学分离技术”的1D-LC系统的效果比常规的1D-LC系统花上数小时进行物理/化学分离的效果更好。由于三线性分解算法是根据组分的化学/物理意义进行信息分离的,因而能获得对应组分的纯质谱图,这点与传统的方法大为不同。该策略不但适用于高丰度对象,并且也适用于低丰度体系。新的数据处理策略另一个较为突出的特点是,该方案能够在获得定性信息的同时,获得体系的定量信息。因为新的研究策略能同时获得丰富的定性定量信息,因而能对蛋白组学的研究对象进行更加深入的研究。本研究采用了为人熟悉的HSA与胰蛋白酶的动态作用体系作为分析的对象。根据定性定量信息的挖掘结果,HSA各个部位不同的作用活性被清晰地呈现出来,该结果用常规的技术是很难获得的。