大规模化合物子结构并行检索方法

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:jmrys
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
化合物的子结构检索在计算机辅助药物设计、波谱学、化学数据库等领域是不可或缺的工具。然而由于子结构检索是NP完备性问题,如何提高检索效率、获得用户可接受的平均检索时间多年来备受研究人员的关注。   本文以满足化学深层网统一检索引擎ChemDB Portal(http://www.chemdb-portal.cn/)未来发展对子结构检索功能的需要为目标,研究了如何利用集群并行、实现化合物规模为百万级的化合物子结构检索的策略,完成了以下研究工作:   1.基于一个5节点的小型集群,设计并实现了主从模式集群并行的ChemDBPortal的化学子结构检索系统。选取10个提问结构,在含有800万个化学结构的数据库中进行了子结构检索测试,以初始单节点时的化学子结构平均检索时间34.1min作为基准,测试结果表明基于集群的化学子结构平均检索时间降低为5节点集群并行时的9.02min,5节点的集群并行能够获得平均3.78倍的检索效率提升。   2.为均衡集群各节点负载和充分利用节点计算资源,对集群并行的化学子结构检索系统进行任务均分及匹配过程多线程优化,优化后5节点的集群平均检索时间由9.02min降低至2.75min,执行效率进一步提高3.28倍,较初始单节点的系统而言,检索效率提高12.4倍。   3.为ChemDB Portal的化学子结构集群并行检索系统添加了从节点状态的动态监听和计算任务的动态调度功能,提高了并行检索系统的可靠性和任务调度的灵活性。   4.比较了开源化学结构处理软件包CDK与MX的子结构检索模块的性能差异,测试结果表明:就检索效率而言,CDK包适用于提问结构的原子数小于200的子结构检索,MX包则更适用于原子数大于200的提问结构。   本文所采用的集群并行技术、任务均分及匹配过程多线程优化等策略不仅适用于ChemDB Portal的化学子结构检索系统,也同样适用于其他涉及到大规模化合物子结构检索的应用。
其他文献
  本文对工作用玻璃水银温度计检定过程中一些技术问题进行了研究,并结合工作中的经验对规程中不明确的地方进行了列举和讨论,为规程修订提供一些参考和技术支持。
LEA(late embroygenesis abundant)蛋白的表达与植物细胞抗逆保护作用有着密切联系。LEA蛋白不仅在植物发育晚期的种子中大量积累,在受到水分胁迫(干旱、盐、低温等)的营养组织中,L
学位
本论文以苯类化合物为研究对象,探讨了两个不同方面的内容:苯烷基化物-重烷基苯精馏釜底产物的品质改善研究以及苯的硝化反应过程研究。   为了提高重烷基苯精馏釜底产物的
细菌纤维素(bacterial cellulose,BC)是由一定的微生物(主要为细菌)产生的细胞外纤维素,目前在工业生产中细菌纤维素的培养方法大致分为液态静置培养和动态培养法。然而,静态培
地球上生命体组织的蛋白质由20种氨基酸构成,除甘氨酸没有不对称碳原子外其他全为L型,组成RNA、DNA中的核糖却全是D型,此即生命现象的手性对称性破缺--生物分子手性均一性,是生命
学位
  本文主要针对装置的读数系统及实时视频监控系统的软件设计及实现进行了详细的阐述。根据模块化设计的基本思想,系统分为以下几个模块:利用DirectShow编写的windows平台下
l,2-二硫烯由于具有离域化的π电子体系而使硫原子的电子密度较大,它们是有很强配位能力的双齿配体,其过渡金属配合物被证明是一种非常有用的分子材料构筑单元,由于它们具有新颖
文章通过多家单位的标准组铂铑10铂热电偶的历史检定数据进行统计和分析得到其热电势的变化规律和趋势.经过统计和分析发现热电偶在检定点铜、铝、锌上的热电势年变化率平均
  高精度恒温槽是温度计量校准的主要设备之一,使用过程中的油烟排放、液位检测、快速降温、加油放油等是困扰客户使用的几个主要问题,本文从实际应用出发,提出了针对以上问题