计算机辅助药物和蛋白性质预测研究

来源 :兰州大学 | 被引量 : 6次 | 上传用户:liongliong554
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,组合化学和高通量筛选技术的不断发展产生了大量化学、生物和药物等方面的相关数据。但是,得到化合物小分子的结构以及生物大分子的序列和结构的速度远远大于得到其相对应的性质和功能数据的速度,这在一定程度上阻碍了研究者们对知识的探索。而计算机辅助方法则提供了一条可取的有效途径。本论文所关注的就是利用计算机辅助的方法对蛋白质大分子、药物小分子的性质进行预测研究,以及对配体-蛋白质相互作用模式和相关生理活性进行预测研究。一方面的目的是利用已知数据建立准确、快速的预测模型,以对未知样本的性质进行预测;另一方面的目的是通过对所建立的预测模型的解释,期望在一定程度上揭示影响性质的关键因素,能够为样本的优化提供有用的信息;最后,期望计算机辅助预测这种方法以及所建立的预测模型能够应用于实际中,有助于筛选出符合研究者要求的化合物分子,节约实验成本、提高筛选速度、缩短实验周期。论文的第一章概述了计算机辅助性质预测方法的基本原理,从数据的获取和处理、研究样本的特征表示、模型的建立、评价和验证这些方面进行了详细的阐述。另外,介绍了计算机辅助配体-蛋白结合模式预测—分子对接方法的原理。最后,对本论文所使用的算法进行了介绍。论文的第二章,我们将计算机辅助性质预测方法应用于蛋白质大分子的性质预测。具体研究内容是蛋白质折叠过程中最基本的两个方面:蛋白质折叠速率的定量预测和蛋白质折叠途径类型的模式识别研究。在第一个研究工作中,完全从蛋白质序列角度出发,采用氨基酸序列自相关方法对101条蛋白质序列进行了表征,基于遗传算法选择出来的关键特征,分别采用全局(multiple linear regression, MLR)和局部(local lazy regression, LLR)模型来预测蛋白质的折叠速率,结果显示局部模型的预测能力优于全局模型。而且,3-fold、5-fold和10-fold交互检验的结果也表明了局部模型具有很好的预测能力和稳定性。此外,我们还分析了影响蛋白质折叠速率的关键特征:未折叠的熵变、疏水作用、二级结构偏好以及残基柔性。在第二个研究工作中,同样地,完全从蛋白质序列角度出发,采用氨基酸序列自相关方法对101条蛋白质序列进行了表征,使用支持向量机-递归特征消除(Support Vector Machine-Recursive Feature Elimination, SVM-RFE)对所有计算得到的特征根据其支持向量的权重进行重要性排序,通过抽一法(leave-one-out, LOO)交互检验的结果,最小二乘支持向量机(least square-support vector machines,LS-SVMs)方法最终使用排在前7个的重要特征建立了分类模型,准确率为91.09%,Matthews相关系数为80.88%。3-fold、5-fold和10-fold交互检验的结果也显示了所建立的预测模型的预测能力和稳定性。另外,我们还分析了氨基酸性质对蛋白折叠途径类型的影响,比如未折叠的自由能、疏水性、二级结构分布以及电荷分布等。论文的第三章,我们将计算机辅助法应用于配体-蛋白的相互作用模式和相互作用强度的预测。在第一个研究工作中,采用从蛋白、配体和蛋白-配体复合物角度出发的组合分子建模方法分析了58个分子对白明胶酶MMP-2和MMP-9的结构-活性关系和结合模式。(1)蛋白角度:蛋白分子的序列比对和结构叠合能够更好地了解蛋白的活性位点信息;(2)抑制剂小分子角度:QSAR研究可以准确预测小分子的抑制活性,并提供影响活性的关键结构特征的信息;(3)蛋白-配体复合物角度:分子对接研究能够识别关键残基以及更好地理解蛋白-配体的关键相互作用。这种从多角度出发的研究策略能够提供很多重要的信息,并且为将来设计新的MMPs抑制剂分子提供了一种思路。在第二个研究工作中,以一系列新型MMP-13抑制剂分子为研究对象,关注了QSAR研究中的两个重要问题:活性构象的选取和描述符的表征。在MMP-13受体结构已知的情况下,通过精确的分子对接程序Glide将所有待研究的化合物分子对接到MMP-13的活性位点处,获得化合物分子的活性构象。在描述符表征部分,使用了配体分子的结构描述符、ADME性质相关的描述符以及表征配体和蛋白相互作用的描述符,通过遗传算法选择出影响化合物分子抑制活性的关键描述符,同时建立了MLR模型(全局模型),内部检验和外部检验都证明了其具有稳定性和预测能力。考虑到局部模型的优势,我们还建立了LLR模型,与全局模型相比,局部模型能显著提高模型的预测能力。论文的第四章,我们将计算机辅助性质预测方法应用于类药分子ADME/Tox相关性质的预测研究中。在第一个研究工作中,选取CYP2C19作为研究对象,基于7750个结构多样性的化合物分子,采用随机森林(random forest, RF)方法建立了识别CYP2C19底物分子的分类模型。基于6200个训练集样本,RF选出了19个重要的描述符,并且建立了分类模型,然后对1550个外部测试集样本进行了预测,结果显示外部测试集的预测准确率可达93.42%,Matthews相关系数达到80.36%。所建立的RF模型运行速度快,且识别精确度高,可以在药物研发的早期阶段用于识别CYP2C19的底物分子,从理论水平上为设计药物分子的研究者提供有用的信息,减少通过代谢导致的药物-药物相互作用的发生概率,提高药物的有效性、安全性。在第二个研究工作中,基于947个结构多样性的化合物分子,采用SVM-RFE方法对计算得到的描述符根据其支持向量的权重进行了重要性排序,用LS-SVMs方法建立了识别是否能引起药物性肝损伤的化合物分子的分类模型。基于710个训练集样本,通过LOO交互检验的结果,LS-SVMs最终使用排在前15个的重要描述符建立了分类模型,准确率达到76.48%,对237个外部测试集样本的预测准确率可达到70.04%。所建立的分类模型可以应用于判断化合物分子是否能引起人类肝细胞毒性,尤其是对能引起肝毒性的化合物分子的判断非常准确,说明理论计算方法是一种非常有效的预测工具,可以应用到其他许多ADME/Tox相关性质的预测上,并且可以在新药研发的早期阶段为研究者提供有用的信息,可能在一定程度上提高药物的筛选速度。
其他文献
按照国家知识产权局的部署,广东省佛山市南海区、广州市和东莞市等三个城市作为我国第一、二批知识产权质押融资试点地区开展了知识产权质押融资实践,取得了一定的成效。总结
为研究长沙具有地方代表性的3种臭豆腐卤水真空冷冻干燥前后挥发性成分的差异,在发酵成熟的卤水中加入一定数量保护剂后进行真空冷冻干燥,检测臭豆腐卤水冻干前后微生物总数
除了普遍倡导的组织治理框架和法律治理规制外,不容忽视的是,组织与员工之间围绕契约产生的责任、义务、权益等的相互认知、感受和期望,也就是心理契约对劳动关系治理的效应
机器人导航是机器人领域的一项基本研究,其重要意义在于:在所处环境中自主移动的是很多种类机器人能够完成其它复杂任务的前提。近几十年来,随着机器人技术和人工智能技术的
文章基于2018 年上半年安徽省科技成果登记的数据,结合科技成果登记日常工作,归类出常见的问题并进行分析,提出解决问题的建议,以期更好地发挥成果登记的作用。
<正>氧气是导致食品变质的主要因素之一。食品行业相继研发的真空包装、气调包装都无法从根本上去除氧气对食品品质的影响,而吸氧包装的推出从根本上解决了这一难题,它能主动
目的分析天津市南开区2014-2016年流感流行特征,为流感预防控制工作提供科学依据。方法根据国家流感监测任务,抽检本区哨点医院流感样病例咽拭子标本,采用分子生物学实时荧光
学术界对当前中国国家级染织类非物质文化遗产的研究一直很不系统,皆因相关资料整理不完善。以中国国务院分别于2006、2008、2011、2014年批准命名的四批国家级非物质文化遗
IC制造业是高科技产业的代表,受到世界各国日益重视,其核心指标是光刻机的线宽和产片率。目前,随着这两项指标的提高,超精密定位技术正向高精度、高加速度和大行程方向发展。
中医学对勃起功能障碍的研究历史悠久,治疗方法多样且疗效肯定,从勃起功能障碍的中医病名、病因病机、治疗进展等方面进行论述,并针对目前中医药治疗勃起功能障碍的现状提出