分子映射指数在化学反应分类预测中的应用

来源 :河南大学 | 被引量 : 0次 | 上传用户:WHDMJ
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对于化学反应数据库的分析来说,化学反应的自动分类是十分重要的,尤其是对于代谢反应。在这一领域,已经进行的一些研究主要基于反应中心识别。然而,在大多数的数据库,由于无法得到反应中心的信息,这些方法的应用受到了限制。化学反应的分子映射指数(MOLecular Maps ofAtom-level Properties,MOLMAP)是产物的MOLMAP指数和反应物的MOLMAP指数的差异。这个指数不需要预先指定反应中心,具备能够被广泛应用的潜力。在本论文中,我们采用化学反应的MOLMAP指数,对光化学反应数据及生物代谢反应数据分别进行了研究,具体内容如下:1.光化学反应分类预测研究数据集来源于德国InfoChem GmbH的SPRESI数据库,共包含356个光化学反应,每一个反应均包括两个反应物和一个产物。人为的将这些反应分为七类。我们由反应物和产物的结构衍生了反应物,产物和化学反应的MOLMAP指数,其中化合物的结构由化学键的物理化学性质和拓扑性质所表征。通过随机森林建立了三种类型的模型:(1)预测反应物可能发生的反应类型;(2)预测可能合成产物的反应类型;(3)预测整个化学反应的类型。对比此前同一数据集的研究,表明改进化学键的描述有助于提高MOLMAP指数的预测能力。为了得到更稳定和准确的模型,通过weka进行了化学键的物理化学性质和拓扑性质的变量选择。变量选择后,化学键性质的子集用于生成MOLMAP指数。同时还进行了被选子集性能的评价。2.生物代谢反应分类预测研究生物代谢反应的数据集来源于KEGG LIGAND数据库。这些反应分为六类,其中的一类为水解酶催化的化学反应。本章的数据集由619个水解酶催化的化学反应所组成。这些反应被进一步分为八个子类。由于逆反应也被包含,共得到1238个代谢反应。通过随机森林,由化学反应的MOLMAP指数,自动地预测了化学反应分类。此外,采用weka,也对生成MOLMAP指数的化学键性质进行了变量选择。变量选择的研究仍在进行中。
其他文献
本文在国内首次系统梳理了近年来国际汉语教育大发展背景下拉美西语国家的汉语教学现状,结合当前汉语教学实际,指出了其汉语教学存在的问题,并提出了一些有针对性的建议。
农村留守儿童问题是伴随我国改革开放的浪潮,而产生出的一个特殊的社会现象。据权威调查,我国留守儿童的数量已经超过6100万人。主体数量庞大,影响牵涉社会教育、经济、治安
目的探讨格列吡嗪辅助二甲双胍治疗2型糖尿病疗效。方法对我院2007年12月至2008年12月收治的50例2型糖尿病患者随机分为两组,两组病例停止使用其他降糖药,在合理饮食、适当运
<正>陈勇,首都医科大学附属北京朝阳医院执行院长,主任医师,中国中西医结合学会皮肤性病专业委员会性病学组委员,中华中医药学会艾滋病防治分会委员。从医20余年,致力于中医
本文从词汇学、句法学视角分析了通俗科技英语Eng lish for Comm on Sc ience and T echno logy(ECST)中隐喻修辞方式的特点,从语用学的角度归纳了通俗科技英语中隐喻的常见
目的探讨内镜下经皮胃造瘘术在危重症患者的应用策略和疗效。方法选择收治的行胃造瘘术的危重症患者66例,其中内镜下经皮胃造瘘术32例,作为研究组,传统胃造瘘术34例作为对照
室温离子液体,亦称离子液体,是由有机阳离子和有机或无机阴离子组成的液体的一种盐类。室温离子液体具有一些独特性质:可通过设计离子液体的阴,阳离子部分以达到所需要的某种特性
本文从反垄断角度出发,根据我国《反垄断法》的相关规定,首先结合网络经济的特殊性,界定了腾讯的相关市场为国内互联网即时聊天软件市场;其次通过相关事实材料认定腾讯具有市
两江新区作为中国第一个内陆开放区,在短时间内经历了高强度开发,其社会经济空间结构演变对于国家新区的发展和规划具有重要意义。两江新区的城市建设用地扩张基本分布在中心