改进朴素贝叶斯算法对细胞色素P450底物特异性的预测

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:smeie
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在所有的药物代谢过程中,细胞色素P450同工酶都起到了至关重要的作用,每一种药都有潜在的可能性会被不同的细胞色素P450同工酶所代谢。因此,在新型药物的研发过程中,了解候选药物与细胞色素酶可能的相互作用以及代谢机理是至关重要的。由于不同的药可能被同一种细胞色素酶代谢,产生竞争关系,相互影响导致副作用,或者同一种药物可能会同时被多种细胞色素P450酶代谢,消耗过快而达不到药效,因此,需要对细胞色素P450酶底物特异性进行了解。传统的生物学实验结果可靠,精确度高,然而需要耗费大量的时间资源和物质资源,随着计算机技术的发展,以及基于大量数据的数据挖掘算法的发展,越来越多的机器学习算法被用于细胞色素底物特异性的预测中,这一方面降低了时间成本和财务成本,另一方面也大大缩小了药物筛选的范围,为之后的研究提供了充分的方向。在本文的研究中,数据方面,我们主要利用了实验室内部数据库CYP-Meta和一些最新发表的文献中公布的传统实验结果,最终筛选出超过一千五百条底物小分子代谢信息以及相应的742个小分子的物理化学属性等信息,这些小分子分属于11个不同的细胞色素P450亚家族的底物,信息整理过程中,对于不同的研究者报告的实验结果,可能会相互矛盾,因此,我们会将相互矛盾的信息进行剔除,确保记录的可靠性。在CYP-Meta中,我们将代谢化合物小分子按照底物、诱导剂、抑制剂分为三类通过type栏记录,除此之外,主表中还包含了小分子名和CID编号。由于同一个小分子可能有不同的名称,为确保信息完整,CYP-Meta中采用CID编号与小分子名作为联合主键。算法方面,我们设计了改进的朴素贝叶斯算法进行预测模型的建立,并同时用传统的简易朴素贝叶斯算法(Na?ve-Bayesian),支持向量机算法(SVM)以及最邻近算法(KNN)分别建立了预测模型,并对各个预测模型进行验证分析和对比。最终,我们发现,我们改进的朴素贝叶斯算法所建立的预测模型性能明显优于其它模型。最终,11个CYP家族的平均预测准确率达到0.89左右,而SVM模型与KNN模型的准确率平均值在0.73左右,除此之外,改进的贝叶斯预测模型相较于其它模型的敏感度和特异性也有所提高。因此,我们认为本研究中所采用的改进的朴素贝叶斯机器学习算法相较于常用的一些传统机器学习算法在性能上有一定提升。
其他文献
本文主要研究了热带海温对华南前、后汛期降水的影响,并基于CMIP5中31个耦合模式的historical实验分析了它们对华南降水的模拟能力。主要得到以下结论:(1)由于东亚夏季风雨带的北跳,华南前汛期(五、六月;MJ)与后汛期(七、八月;JA)降水异常的变化特征有很大的不同,它们之间的相关系数甚至为负(-0.22)。(2)华南前汛期与后汛期降水异常对应的大尺度大气环流表现出相反的特征:当华南前汛期
多梳蛋白家族(PcG)是一类调控基因沉默的表观修饰蛋白,它们可以与其它蛋白形成多种复合物。常见的复合物有多梳抑制复合物I(PRC1),多梳抑制复合物II(PRC2)。哺乳动物中多种同
系统动力学是一门通过认识、解决系统问题的方法来研究信息反馈系统的学科。本课题将系统思考方法带入IT类项目管理应用研究中,通过系统动力学建模方法,研究影响项目成本和工
零差k(Homodyned-K,HK)分布是一种分析超声回波包络信号的通用统计模型,它的三个参数都具有不同的物理意义,适合用于组织定征。然而,现存的零差k分布参数估计方法都是基于求解统计特征方程,这会导致多解的问题,从而影响零差k分布参数的进一步应用。理论上,使用极大似然估计方法能够获得模型参数的唯一解。但是,极大似然估计方法必须基于统计模型的概率密度函数进行计算,而零差k分布的概率密度函数是一个
喷丸强化是常用的表面处理方法之一,广泛应用于汽车、航空航天、石油等行业。零件经喷丸强化后,可在表面形成残余压应力层,表层位错密度提高,晶粒细化,疲劳强度和疲劳寿命会有明显的改善。本文结合有限元仿真与喷丸试验,针对34CrNiMo6钢对比了复合喷丸与单次喷丸在残余应力、表面粗糙度、残余奥氏体含量等方面的不同,并对复合喷丸中喷丸强度对最终残余应力场分布的影响进行了系统分析,对建立真实工件形状的仿真模型
文化自信是支撑中华民族从现在走向未来的重要精神支柱,新时代的大学生是实现中华民族伟大复兴的主力军,他们是否具有高度的文化自信将直接影响中国梦的实现。当前,受西方文化渗透、不良文化思潮的影响,一些大学生出现了文化迷失、崇洋媚外的问题,这极不利于个人和国家的发展。因此,新时代必须加强文化自信教育,引导大学生树立高度的文化自信,这是高校思政课的内在使命,更是时代所需。本文从高校思政课角度,对大学生文化自
本文在对常规活性炭(AC)电极进行探索研究的基础上,通过将单元(碳纳米管(CNT)或石墨烯(Graphene))或多元(CNT和Graphene)纳米碳材料用作导电添加剂引入到常规活性炭电极中进行复合改性,以改善活性炭电极的导电性,从而提高其倍率性能及循环稳定性。通过扫描电镜(SEM)及氮气吸脱附测试(BET)对复合电极的微观形貌及孔径分布、比表面积进行分析并结合电化学测试手段(恒流充放电测试、循
本文利用通用地球系统模式(Community Earth System Model,CESM)在全球瞬变和稳定到达1.5/2℃下的预估结果,对比了未来全球不同升温阈值(1.5/2℃)及其不同增温过程下中国区域极端事件的响应差异,并重点探讨了未来夏季降水变化差异的可能机理,结果表明:(1)相比于1986-2005年,全球稳定增温1.5℃/2℃下中国区域年最高气温上升约1.2℃/1.9℃;热浪日数增加
本文采用1961-2014年华北地区72站逐日气温资料,NCEP/NCAR再分析资料以及Hadley环流中心逐月海冰密集度资料,利用HYSPLIT模式对寒潮路径进行追踪并用聚类方法对其进行分类,探讨了华北秋季寒潮路径年代际变化特征及其可能成因,得出以下主要结论:(1)入侵华北地区的秋季寒潮路径分为三类:西路,北路和西北路;北路寒潮强度最强,而西北路和西路寒潮强度较弱;华北秋季寒潮强度在1970s初
硅基发光材料作为达成超大规模光电子集成电路的必要条件一直受到广泛的关注。硅基材料在可见光波段的光致发光源自于硅的化合物的缺陷结构或者量子限制效应。离子注入技术可