论文部分内容阅读
化学计量学的发展表明了化学和分析化学进入了信息时代。分析化学和化学技术中需要的是改进的定量信息,这就需要将化学量测转化成有意义的结果,例如,从所得的数据中提取有用的信息。通常地, 从多元数据阵中提取有意义的结果意味着探测数据的自然聚类和异常点,然后寻找适当的聚类办法或设计一个代表数据集的校正模型。然而,这些目标并不容易实现,特别是当我们处理从先进的化学仪器或化工厂获得的复杂多变量数据集时。本论文提出了五种新的化学计量学算法,提高了对复杂多变量化学数据集的信息挖掘能力。第一个算法适用于聚类分析领域,我们称它为泡泡凝聚(BA)。这个算法将每个数据点认作为一个半径为r的泡泡的球心。所有的泡泡大小相同,每组邻近的泡泡形成一个自然类或一个核心。算法逐渐增大泡泡的半径和邻近泡泡的数目。从而原先认为的类的核心逐渐减少。稀疏的数据点根据它们到不同核心的距离分布于不同的核心。最后通过可靠性曲线决定最优的泡泡半径。我们用了两套模拟数据集和三套实际数据集来验证此方法的性能。与K-均值方法的比较显示了BA方法令人满意的优良性能。毫无疑问,将多维数据集降维呈现在二维数据空间,不仅是检测自然聚类也是提取所有数据集内含信息的一个强大的工具。在本论文中提出的第〔盖inese abs介aCt二个算法是基于主成分分析(P cA)的新的多维数据显示方法。数据点可显示在两维空间中,并且同时不受只使用前两个主成分的约束。在这种方法中,所有含重要化学信息的主成分在可视化过程中都可充分利用。数据点通过(n+l)边规则多边形显示,n个主成分包含大多数的化学信息。所提出的方法应用到实际的化学数据集中;有一些数据集并不能用传统的PCA方法成功可视化。所得到的结果表明我们提出的方法能显示化学数据集,尤其是所提出的方法保持数据点之间内部相对距离比传统的PCA方法要好。 本论文的第三个算法适用于分类方法;算法命名为多产遗传算法(MpGA),可用来对重叠化学数据进行分类。所提出算法首先估计了一个线性判别函数。我们通过两个新提出算子改进后的遗传算法估计线性判别函数,即,多产、灭绝与定向生成。改进了的遗传算法改善了线性分类的结果,同时减少了计算时间。为了克服线性不可分的化学数据集常遇到的困难,优化的线性分类器通过补充非线性分类器进一步改善。补充的非线性的相应部分通过对线性分类错误的样品建立半超椭圆体实现。所提出的MPGA应用于对七组化学数据集进行分类。实验结果表明所提出的MPGA能对严重重叠的数据集进行正确分类。第四个算法改善了多元线性校正过程。这种方法称之为逐步准线性建模方法,当单个线性校正模型不能在允许的残差范围内描述整个数据集时,它将数据集分为几个线性的子集。此算法处理线性模型将寻找子集转化成数 VI尸〔傲inese absh.act据空间的超平面。改进的遗传算法通过给定的最大误差将数据集分成线性的子集。所提出的算法成功地将一个实际的QsAR数据集分成三个同类的线性子集,与单个线性模型相比,残差非常小。提出的第五个算法在将数据集分成子集的情况下辨别样品。当在限定的误差范围内单个线性模型不能成功地代表整个数据集时,此算法综合了将数据集分成几个线性的子集。提出了两种不同的分类方法通过使用相应的线性模型估计预测变量”少”,将新的样品归入正确的子集。每种方法的判别过程可通过比较用分割算法的原始线性模型对新样品”,所计算的变量”夕”与假设第一种方法用PcR或第二种方法用PLsR所得的”夕”之间的偏差实现。样品属于给出最小偏差的子集。除了两组模拟的数据集,此方法还用于两组实际的QSAR数据集。结果与传统的SIMCA聚类方法比较表明,每个提出的方法都能用于将新的样品归于用遗传算法分割数据集的子集,分类的准确度令人满意。此外,所提出的方法中的任何一种在不是用基于PLsR或PcR的别的方法进行数据集分割时也可使用。关键词:泡泡凝聚;聚类分析;多边形显示;两维可视化;非线 性聚类;多产算子;逐步准线性建模;数据分割;校正 VII