化学信息学中的数据挖掘

来源 :中南大学 | 被引量 : 0次 | 上传用户:feijian06
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
化学信息数据带来了巨大的挑战与机遇。化学信息学这一门新的学科产生于科学家们对化学知识规律的不断需要的过程中。化学信息学是利用信息学的方法来解决化学的问题,得到有关化学本质规律的认识。化学信息学中一个重要的目的是得到一些专家知识来解释所观测到的化学现象。而这些知识往往是隐含在大量的数据中的,这就需要一些思想和方法来挖掘出这些知识。 本论文的研究包含数据库的建立,拓扑描述子的计算,拓扑描述子的结构解释以及QSAR/QSPR中的实际应用等。本文的研究内容分别为: 第一部分提出了直观队列命名法系统(第二章和第三章)。第二章介绍了直观队列命名法的基本原理,利用该方法计算了320多种拓扑指数。第三章建立了中药活性成分数据库,含有4000多种中药活性成分的结构以及相关的生物活性数据。 第二部分是对分子拓扑结构进行描述而得到了不同的描述子(第四章一第七章)。第四章提出了确定分子中心的一种新的方法以及一个新的分子中心指数。第五章从顶点度分布的数学特征出发,以最小的人为干扰来发现分子结构特征,得到了一些很有意思的结果。第六章基于从顶点度分布的数学特征得到的结构特征,提出了一种计算分子分支数目的方法。第七章为了更好地描述所研究的性质,本文提出了一种新的变量策略来获得外部因素变量连接性指数并扩展到高阶来提高回归效果,它们的结果比原先的变量指数以及原先的分子连接性指数要好,该指数是分子连接性指数的一个最新的进展。 第三部分是对一些拓扑指数进行了结构解释(第八章一第十章)。拓扑指数经常面临的一个重要缺点是缺乏用简单的结构和物理化学的概念来进行解释。挖掘出拓扑指数所隐含的结构特征对于解释拓扑指数以及它们所建立的模型都是很有帮助的。第八和九章从这些拓扑指数张成的多维空间里面自动地从高维的点云中找出“有意思的”低维投影。本文作者引入了数论中提出的在多元球面上产生数论网格的TFWW方法,以及利用描述“混乱度”的熵作为投影指标,使用投影寻踪挖掘出了隐含在这些拓扑指数构成的多维空间中的结构特征,来解释了外部因素变量连接性指数,x,Kappa和E-State指数。得到的结果显示拓扑指数之间很可能具有很高的共线性。在第十章从多维的角度来研究了拓扑指数的相互关系,引入了典型相关分析来发现和定量化描述两组变量之间的相互关系,并用于了研究x,KapPa以及E一State指数的相互关系。该研究定量地发现这些拓扑指数之间是高度线性相关的,而且我们进一步从它们共享的方差分析中发现了它们为什么是高度相关的。 第四部分是研究如何提取拓扑指数的正交的信息来建立有效的定量结构活性关系模型(第十一章一第十二章)。为了能在减少变量的同时也包含原始变量的基本所有信息,第十一章使用了正交块变量的方法以及典型相关分析来对中药中的活性成分如生物碱进行了结构活性关研究。第十二章引入了模型的拟合与预测的平衡的观点来选择了块变量,并用于了色谱保留指数的建模研究。
其他文献
牛消化系统疾病是牛的常见病症,严重时甚至会威胁到牛的生命,给牛养殖业的发展带来了严重的阻碍。消化系统疾病在初期时症状并不明显,因此难以鉴别,需要养殖人员对牛的状态仔
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
能力的培养一方面靠知识的传授,另一方面靠把传授的知识转化为能力。通过科学的练习活动和有效的实习,才能较好地把知识转化为能力。
在养鸡业中亚健康已经成为公认的不可否认的事实,却很少有人真正认识到家禽的自愈力,以及养殖过程中实际存在的根本性的问题,很多习惯性管理反而导致了鸡群的高发病率,却还在
鸡痛风发病原因主要是由于鸡体内尿酸原因所影响的,通常血液中尿酸的浓度升高,肾脏无法吸收而被排泄出来,但是一旦肾受到损伤,在排泄尿酸时就会受到阻碍,从而导致尿酸中毒,体
近来在税务部门查办的一些骗税案件中发现,社会上一些不法分子和企业利用以农产品(特别是一些体积小、重量轻、价值高、不同等级单价差别大的农产品)为主要原料生产的出口货物进
目的:优选绵茵陈药材提取方法,为其指纹图谱的研究提供依据。方法:采用不同提取方式、提取溶剂、提取时间、提取温度及提取次数对绵茵陈药材化学成分进行提取,并对提取物进行
炎热夏季鸡舍都是通过湿帘来进行防暑降温的,但是如果使用不当、致使鸡舍风速较低,不仅达不到理想的降温效果,还会因为湿帘蒸发而加重鸡群的热应激反应。所以管理者必须清楚
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
【正】 在《哥达纲领批判》一文中,马克思批判了拉萨尔的“不折不扣的劳动所得”的观点,论述了共产主义社会的分配原则。这就是:为了使社会主义能够正常地扩大再生产,一部分