论文部分内容阅读
化学信息数据带来了巨大的挑战与机遇。化学信息学这一门新的学科产生于科学家们对化学知识规律的不断需要的过程中。化学信息学是利用信息学的方法来解决化学的问题,得到有关化学本质规律的认识。化学信息学中一个重要的目的是得到一些专家知识来解释所观测到的化学现象。而这些知识往往是隐含在大量的数据中的,这就需要一些思想和方法来挖掘出这些知识。 本论文的研究包含数据库的建立,拓扑描述子的计算,拓扑描述子的结构解释以及QSAR/QSPR中的实际应用等。本文的研究内容分别为: 第一部分提出了直观队列命名法系统(第二章和第三章)。第二章介绍了直观队列命名法的基本原理,利用该方法计算了320多种拓扑指数。第三章建立了中药活性成分数据库,含有4000多种中药活性成分的结构以及相关的生物活性数据。 第二部分是对分子拓扑结构进行描述而得到了不同的描述子(第四章一第七章)。第四章提出了确定分子中心的一种新的方法以及一个新的分子中心指数。第五章从顶点度分布的数学特征出发,以最小的人为干扰来发现分子结构特征,得到了一些很有意思的结果。第六章基于从顶点度分布的数学特征得到的结构特征,提出了一种计算分子分支数目的方法。第七章为了更好地描述所研究的性质,本文提出了一种新的变量策略来获得外部因素变量连接性指数并扩展到高阶来提高回归效果,它们的结果比原先的变量指数以及原先的分子连接性指数要好,该指数是分子连接性指数的一个最新的进展。 第三部分是对一些拓扑指数进行了结构解释(第八章一第十章)。拓扑指数经常面临的一个重要缺点是缺乏用简单的结构和物理化学的概念来进行解释。挖掘出拓扑指数所隐含的结构特征对于解释拓扑指数以及它们所建立的模型都是很有帮助的。第八和九章从这些拓扑指数张成的多维空间里面自动地从高维的点云中找出“有意思的”低维投影。本文作者引入了数论中提出的在多元球面上产生数论网格的TFWW方法,以及利用描述“混乱度”的熵作为投影指标,使用投影寻踪挖掘出了隐含在这些拓扑指数构成的多维空间中的结构特征,来解释了外部因素变量连接性指数,x,Kappa和E-State指数。得到的结果显示拓扑指数之间很可能具有很高的共线性。在第十章从多维的角度来研究了拓扑指数的相互关系,引入了典型相关分析来发现和定量化描述两组变量之间的相互关系,并用于了研究x,KapPa以及E一State指数的相互关系。该研究定量地发现这些拓扑指数之间是高度线性相关的,而且我们进一步从它们共享的方差分析中发现了它们为什么是高度相关的。 第四部分是研究如何提取拓扑指数的正交的信息来建立有效的定量结构活性关系模型(第十一章一第十二章)。为了能在减少变量的同时也包含原始变量的基本所有信息,第十一章使用了正交块变量的方法以及典型相关分析来对中药中的活性成分如生物碱进行了结构活性关研究。第十二章引入了模型的拟合与预测的平衡的观点来选择了块变量,并用于了色谱保留指数的建模研究。