论文部分内容阅读
本文作者通过综述当前化学计量学领域中的热点、难点问题,选择了化学计量学多元校正(定量)和以蛋白质翻译后修饰位点预测为对象的模式识别(分类)两方面展开了相关研究工作。在多元校正方面,本文作者从二维、三维到四维的角度分别对复杂体系的定量分析问题在算法或应用上进行了探索性基础研究。在蛋白质翻译后修饰位点预测方面,本文作者从二分类到多类的角度对蛋白质翻译后修饰位点预测作了部分研究工作。本论文的内容主要涉及到以下几个方面:第一部分:多元校正(第2章-第4章)稠环芳烃主要来源于有机材料的不完全燃烧和热分解,它广泛存在于燃烧产品中,这其中就包括了卷烟烟气。大多稠环芳烃均具有致癌性或能诱导突变作用,其中最典型的就是苯并[a]芘,它的致癌性最高,被国际癌症机构认定为人类致癌物。因此,对卷烟主流烟气中苯并[a]芘含量的监测有助于我们对烟草质量的控制以及评价其对人类健康危害。目前,对卷烟烟气中苯并[a]芘含量测定的方法主要是基于色谱法分离后联用各类检测器检测。此类方法操作繁琐,耗时长,分析成本高,不利于作日常检测手段。本文将中红外光谱结合化学计量学用于开发一种简单、快速和非破坏性的稳健方法以对卷烟主流烟气中苯并[a]芘的含量进行测定。为了加强校正模型的预测能力,我们提出了离散粒子群-小波包变换-偏最小二乘(DPSO-WPT-PLS)新算法,并获得令人满意的结果。此外,与其它四种化学计量学算法相比较,数据分析结果显示DPSO-WPT-PLS具有更优异的性能。β-胡萝卜素是一种天然色素,由于其富有营养并且着色能力强,被联合国粮农组织和世界卫生组织食品添加剂联合专家委员会认定的A类优秀有营养的食品添加剂。但是食用高剂量β-胡萝卜素补充剂可能会产生不良反应,甚至会增加某些疾病的发生机率。β-胡萝卜素性质稳定、沸点较高,目前较多的使用高效液相色谱检测技术进行检测,然而在实际的样品检测中,部分复杂样品中会存在严重干扰从而导致较大的定量误差。为解决此问题,本文第3章将交替三线性分解算法(ATLD)与高效液相色谱-二极管阵列检测器(HPLC-DAD)相结合用于实际乳粉和饮料样品中β-胡萝卜素含量的测定。尽管实际乳粉和饮料样品中有基质干扰目标物的分析,但采用ATLD算法解析色谱数据,利用“数学分离”增强“化学分离”,实现了未知干扰组分存在下对目标物β-胡萝卜素的定量分析。此外,HPLCMS方法被用于验证结果的准确性,结果表明,HPLC-MS方法与算法解析结果之间无显著性差异。氟喹诺酮类(Fluoroquinolones,FQs)药物是在污水和表层水体中能够被检测出来的常见的一类抗生素。作为抗生素,FQs药物很难被微生物降解,在污水处理厂(Wastewater Treatment Plant,WWTP)的常规处理中难以完全消除。UV/H2O2高级氧化技术(Advanced oxidation technologies,AOTs)在处理难降解的有机物上具有独特优势,因此有必要考查FQs药物基于UV/H2O2高级氧化处理的降解行为。本文第4章采用了荧光光谱结合化学计量学多维校正法(包括三维PARAFAC算法和四维PARAFAC算法)对水体系中氧氟沙星(OFL)和达氟沙星(DAN)这两种FQs药物基于UV/H2O2高级氧化处理的光解动力学进行了研究。实验结果表明,本文采用的方法可同时实时监测OFL和DAN在环境水样中的含量变化。值得注意的是,在实验条件优化的过程中,我们用三维PARAFAC算法分别解析出了OFL和DAN在不同p H值下的荧光光谱形态分布,结果与文献报道一致。此外,我们用三维PARAFAC算法还考查了H2O2加入量对这两种FQs药物的降解速率的影响。荧光光谱结合化学计量学多维校正算法这种分析方法不仅节约样品预处理时间,还能用于实验条件优化,对复杂体系多组分实时定量分析,这对于监测待分析物的动力学过程具有潜在应用价值。第二部分:蛋白质翻译后修饰位点预测(第5章-第6章)蛋白质甲基化修饰是一种常见的蛋白质翻译后修饰,它在信号传导、DNA修复等很多细胞进程中起到非常巨大的作用。蛋白质甲基化位点的识别在理解与之相关的生物过程中的基本分子机理起到非常重要的作用。运用生物信息学方法对蛋白质甲基化位点进行预测是一种强而有力的途径,它方便、经济并快捷,对可能的蛋白质甲基化位点的进一步实验鉴定提供了便利。在本文第5章中,我们综合了伪氨基酸组成成分(Pse AAC)和蛋白质链描述符来全局表征蛋白质的序列信息,并运用基于粒子群优化的支持向量机算法对蛋白质精氨酸甲基化位点进行了预测。我们计算得到独立预测集的准确率、灵敏度、特异度和马修斯相关系数分别为98.11%、96.23%、100%和96.30%。这表明我们所提出的分析方法对蛋白质精氨酸甲基化位点具有充分的预测效能。此外,我们还将其与基于不同的特征抽取或分类算法的其它预测工具进行了比较,结果显示我们所提出的方法在识别蛋白质精氨酸甲基化位点方面具有更好的性能。赖氨酸(K)翻译后修饰可控制蛋白质的活性并继而影响人类疾病,因此识别赖氨酸(K)残基翻译后修饰的状态是全面理解蛋白质功能的基础。然而,目前,靠实验检测到的所有赖氨酸修饰位点对于通常研究的蛋白组学仅仅只占一小部分。因此,用于赖氨酸修饰位点识别的计算机预测技术有可能为研究者提供关于这些修饰有价值的指导。目前,针对于研究得最广泛的四种类型的赖氨酸翻译后修饰(乙酰化、甲基化、泛素化和SUMO化修饰)位点预测问题,研究者们已发展了不少计算机预测方法。但这些方法大都一次只针对一种类型的赖氨酸(K)修饰位点进行预测,并没有同时对蛋白上所有赖氨酸(K)残基可能修饰的不同类型同时预测。在本文第6章中,我们尝试运用基于氨基酸序列的计算机预测方法对蛋白质赖氨酸乙酰化、甲基化、泛素化和SUMO化四种修饰位点同时预测。我们采用了上一章提出的蛋白质序列全局特征信息提取来对氨基酸序列进行数字化表达。此外,我们采用了基于回归的SVM思想构建K个SVM回归模型,进行分类,这避免了不可分现象的产生,也大大减少了分类重叠现象的出现,获得了令人满意的结果。