复杂化学数据的知识发现新型化学计量学算法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:w168730018
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
化学计量学的发展表明了化学和分析化学进入了信息时代。分析化学和化学技术中需要的是改进的定量信息,这就需要将化学量测转化成有意义的结果,例如,从所得的数据中提取有用的信息。通常地, 从多元数据阵中提取有意义的结果意味着探测数据的自然聚类和异常点,然后寻找适当的聚类办法或设计一个代表数据集的校正模型。然而,这些目标并不容易实现,特别是当我们处理从先进的化学仪器或化工厂获得的复杂多变量数据集时。本论文提出了五种新的化学计量学算法,提高了对复杂多变量化学数据集的信息挖掘能力。第一个算法适用于聚类分析领域,我们称它为泡泡凝聚(BA)。这个算法将每个数据点认作为一个半径为r的泡泡的球心。所有的泡泡大小相同,每组邻近的泡泡形成一个自然类或一个核心。算法逐渐增大泡泡的半径和邻近泡泡的数目。从而原先认为的类的核心逐渐减少。稀疏的数据点根据它们到不同核心的距离分布于不同的核心。最后通过可靠性曲线决定最优的泡泡半径。我们用了两套模拟数据集和三套实际数据集来验证此方法的性能。与K-均值方法的比较显示了BA方法令人满意的优良性能。毫无疑问,将多维数据集降维呈现在二维数据空间,不仅是检测自然聚类也是提取所有数据集内含信息的一个强大的工具。在本论文中提出的第〔盖inese abs介aCt二个算法是基于主成分分析(P cA)的新的多维数据显示方法。数据点可显示在两维空间中,并且同时不受只使用前两个主成分的约束。在这种方法中,所有含重要化学信息的主成分在可视化过程中都可充分利用。数据点通过(n+l)边规则多边形显示,n个主成分包含大多数的化学信息。所提出的方法应用到实际的化学数据集中;有一些数据集并不能用传统的PCA方法成功可视化。所得到的结果表明我们提出的方法能显示化学数据集,尤其是所提出的方法保持数据点之间内部相对距离比传统的PCA方法要好。 本论文的第三个算法适用于分类方法;算法命名为多产遗传算法(MpGA),可用来对重叠化学数据进行分类。所提出算法首先估计了一个线性判别函数。我们通过两个新提出算子改进后的遗传算法估计线性判别函数,即,多产、灭绝与定向生成。改进了的遗传算法改善了线性分类的结果,同时减少了计算时间。为了克服线性不可分的化学数据集常遇到的困难,优化的线性分类器通过补充非线性分类器进一步改善。补充的非线性的相应部分通过对线性分类错误的样品建立半超椭圆体实现。所提出的MPGA应用于对七组化学数据集进行分类。实验结果表明所提出的MPGA能对严重重叠的数据集进行正确分类。第四个算法改善了多元线性校正过程。这种方法称之为逐步准线性建模方法,当单个线性校正模型不能在允许的残差范围内描述整个数据集时,它将数据集分为几个线性的子集。此算法处理线性模型将寻找子集转化成数 VI尸〔傲inese absh.act据空间的超平面。改进的遗传算法通过给定的最大误差将数据集分成线性的子集。所提出的算法成功地将一个实际的QsAR数据集分成三个同类的线性子集,与单个线性模型相比,残差非常小。提出的第五个算法在将数据集分成子集的情况下辨别样品。当在限定的误差范围内单个线性模型不能成功地代表整个数据集时,此算法综合了将数据集分成几个线性的子集。提出了两种不同的分类方法通过使用相应的线性模型估计预测变量”少”,将新的样品归入正确的子集。每种方法的判别过程可通过比较用分割算法的原始线性模型对新样品”,所计算的变量”夕”与假设第一种方法用PcR或第二种方法用PLsR所得的”夕”之间的偏差实现。样品属于给出最小偏差的子集。除了两组模拟的数据集,此方法还用于两组实际的QSAR数据集。结果与传统的SIMCA聚类方法比较表明,每个提出的方法都能用于将新的样品归于用遗传算法分割数据集的子集,分类的准确度令人满意。此外,所提出的方法中的任何一种在不是用基于PLsR或PcR的别的方法进行数据集分割时也可使用。关键词:泡泡凝聚;聚类分析;多边形显示;两维可视化;非线 性聚类;多产算子;逐步准线性建模;数据分割;校正 VII
其他文献
目的:探讨急诊内科昏迷患者的临床诊断和处理方法。方法:对120例急诊内科昏迷患者的诊断与处理方法进行回顾性分析。结果:120例急诊内科昏迷患者经抢救治疗后,抢救成功者101例,
甘肃省档案馆成立于1959年10月。在这世纪之交,回顾省馆走过的40个不寻常春秋,特别是改革开放20年的发展历程,几多兰台人文巨变的话题,涌上心头。知难而上十年动乱后,机构恢复不久的省档案馆
关于铁催化剂固氮成氨的多相催化作用机理,七十多年来,经过各国科学工作者的不断研究,仍未能取得一致的认识。解决这一重要问题的关键在于确证反应条件下、作为气体反应剂的N
人类遗传变异常常是与生物学功能相关的,遗传变异可影响人类健康.不同种类的遗传变异往往对人类健康产生不同的影响,深入了解不同变异对人类健康影响的机制,将大大促进人类健
2004年上半年中国人民银行批准成立广西钱币博物馆,隶属于中国人民银行南宁中心支行.填补了广西钱币博物馆的空白.就广西钱币博物馆的职能来说,基本上有三大点,即收藏、研究
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
地籍测量是通过对现有土地资源进行测量、统计以及建档,主要作用是为了确认土地归属权,也就是说,对在地籍中存在模糊的地方进行重新测量以及确认归属,为土地资源统计以及建档
初到乌兰察布.笔者就被内蒙古地区奇特的地名所吸引。乌兰察布系蒙古语红色崖口之意.因清初会盟于红山口(今呼和浩特市东北大青山脚下)而得名。公元1663年,蒙古族四王子、茂明安等
本文对目前地下洞室钻爆法施工的优缺点进行了分析,从工程实践中总结提出了因钻爆法施工特殊性造成的超挖问题,由于超挖带来初支混凝土厚度增加,从而导致回弹率增大、原材料
压电材料及器件是现代社会生活和科技发展不可缺少的重要材料和元件,在航空航天等高技术领域及国防和国民经济的各部门中均发挥着重要作用。压电晶体是最早得到应用也是目前