化学数据挖掘新算法和定量构性关系基础研究

来源 :湖南大学 | 被引量 : 6次 | 上传用户:wd1219981997
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
化学数据挖掘正逐渐引起化学家们的关注。为了有效地挖掘色谱保留指数数据中有关不同化合物保留行为的差异,收集了近50 000条保留指数数据建立了保留指数数据库。同时讨论了建立及使用数据库所遇到的关于数据的查错和纠错、保留指数的温度校正和实验误差估计等问题。本文利用投影寻踪方法对拓扑指数-保留指数关系研究所涉及的数据进行数据挖掘,构建了一个投影寻踪算法。通过对烷烃、烯烃和环烷烃的投影寻踪,发现不同结构的化合物彼此可以按照分子中碳原子数目、分支数目、双键数目、双键位置、共轭与否、环数目及环上分支等分为不同的类别。利用这些已发现的分类信息,对不同类别的化合物建立不同的拓扑指数-保留指数和拓扑指数-沸点关系模型。对于烷烃化合物所建模型的标准误差已接近或达到了实验误差水平,并且有较高的预测能力。另外,当用一种同系物系列中的化合物构建投影方向时,能得到一个针对同系物的分类,并由此提出了类距离变量,用类距离变量可以建立非常优良的构性关系模型。利用拓扑指数间的正交化方法,并考虑性能,提出了拓扑指数的相似性评价指数和差异性评价指数,用来定量地考察拓扑指数之间的相关性和每一种拓扑指数对回归的贡献。计算结果表明它们可以比较合理地描述变量之间的关系,并且对定量构性关系研究中的变量选择也有指导意义。本文提出了块变量的概念,即几个定义相近的一类结构描述符组合在一起形成为一个块变量。通过对一组拓扑指数进行分块、正交化和用典型相关分析方法将正交化的块变量降维到一维等变换,得到一组保持着原变量绝大部分信息的新变量,变量数目大大降低。结果发现此方法很大程度上提高了构性关系模型的拟合和预测能力。复杂样品的色谱分析往往是一个部分组分已知,部分组分未知的灰色分析体系。本文提出了计算灰色分析体系死时间和正构烷烃保留时间的模型和算法,并利用文献上保存的大量保留指数数据对未知组分进行定性。通过对两个石油产品色谱分析例子的应用,发现该算法计算的死时间与实验结果非常接近,而且计算的正构烷烃保留时间和未知组分保留指数也与实验测定结果十分吻合。
其他文献
鞍山森远高等级公路养护机械制造有限公司研制的LX-2多功能沥青路面修补车(实用新型专利号:ZL02274960 8)是一种集多种用途于一体的多功能沥青路面综合养护车.
(接2003年第2期)3 液压元件工作压力和转速极限及参数的匹配液压元件工作压力和转速参数的合理选用与匹配可以保证元件具有期望的工作寿命与可靠性,元件工作能力被充分利用而
生物学家最近在美洲发现了一种不遵循自然界“行为准则”的鱼,它们不仅无需交配就可生儿育女,每年还可像鸟类一样跃上枝头,在树上生活数月之久,堪称人类所知最奇特的鱼种之一
<正>黑龙江省珠算协会拟定2006年1月4~13日在哈 尔滨市举行珠心算与幼儿教育整合经验交流现场会,同 时与教师集训结合进行,有关内容函告如下: 一、现场交流内容 珠心算教育与幼儿
期刊
为了更深入地开展珠心算研究,充分发挥各方面的优势,浙江大学理学院物理系交叉学科实验室(甲方)、慈溪市第三实验小学(乙方)、中国珠算心算协会、宁波市珠算协会、慈溪市财政局、
"中国共产党党员、原安徽省财政厅党组副书记、副厅长许遵普同志,因病于2009年11月20日在南京逝世,享年86岁。许遵普同志,山西曲沃人,1924年5月出生,1939年5月参加革命,1942
期刊
现行小学数学课本四年级上册P57介绍一种格子乘法。
目的探讨人巨细胞病毒(HCMV)感染患儿HLA-DR、CD4~+CD25~+调节性T细胞(CD4~+CD25~+Treg)以及IL-17、IL-27的表达水平与肝功能损害的相关性。方法以21例HCMV感染肝功能损害患
幼儿时期是人的大脑发育最迅速的时期,也是智能开发最佳年龄段。那么,如何抓住这一关键时期,促使幼儿智力早期得到开发,是幼师和家长必须面对的首要课题。我们认为,要想使幼儿智力
为了确定煤仓清堵过程中空气炮最佳初始压力,建立了空气炮喷爆数学模型,针对不同工况确定了相应的边界条件和初始条件;采用Fluent软件对初始压力0.4~0.8 MPa下的喷爆过程进行