基于支持向量机的蛋白质分类及含氟农药活性预测

被引量 : 0次 | 上传用户:sunnus31
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
通过实验确定蛋白质的结构和含氟化合物的生物活性,不但费时费力费钱,而且前者在实验中易遇到困难,后者则易给环境带来负面影响。因此,建立一个自动化识别新肽链蛋白质结构的方法,以及采用定量构效关系研究来预测未知含氟化合物的生物活性已成为一种势在必行的趋势。本文在深入了解支持向量机的基础上,结合组合预测,系统地研究了蛋白质四级结构分类和含氟农药活性预测,为蛋白质结构与功能的研究和新含氟农药的设计与合成提供了指导作用。为提高蛋白质四级结构分类精度,应用四种特征值提取方法,基于支持向量机分类进行了研究。其中有三种特征值提取方法是对传统的氨基酸组成成分、二肽组成成分和氨基酸组成分布等方法进行了改进;第四种方法引入了新的氨基酸生化参数,采用伪氨基酸法提取特征值。结果表明:四种模型的分类精度均提高了2~3个百分点。并在此基础上引入组合预测,对上述四种模型进行线性和非线性组合,其分类精度与最高分类精度的子模型相比再次提高了2~3个百分点,使独立测试集的分类精度达到了90%以上。为深入认识含氟农药生物活性与其结构间的关系,建立更理想的定量构效关系模型,以化合物的油水分配系数等7个分子结构描述符,基于支持向量机回归和MSE最小原则,经自动寻找最优核函数、非线性筛选描述符、K-最近邻预测构建子模型,最后采用组合预测以留一法定量预测了33种含氟化合物对5种不同病害的生物活性。结果显示:对含氟农药作用于五种病害的活性预测,基于保留描述符和子模型的SVR组合预测结果均为最优,其MSE值在0.005~0.015之间,MAPE值在2.136~3.164之间。与多元线性回归、逐步线性回归和误差反传神经网络等留一法测试结果比较,本文方法具有更优的预测精度及稳定性。
其他文献
忻州方言属晋语五台片,不论是语音、词汇还是语法,都有自己鲜明的特点,而其中的四字格俗语更是其一大特色。就我们所见的《忻州方言俗语大词典》中,收录的四字格俗语就多达四
隐喻一直被认为是一种传统修辞方式,不过是语言的装饰。随着认知语言学的发展,隐喻的本质和作用获得重新认识。在新兴的认知语言学领域中,隐喻不仅仅是一种语言现象,更是一种
目的:探讨胃癌发生过程中Alpha-catenin(α-Cat)、Interleukin-10(IL-10)表达与幽门螺杆菌(Helicobacter pylori,H pylori)感染的关系,及其在胃癌发生发展中可能的机制。方法
混合离子交换器(简称混床)是电厂水处理的主要技术之一,具有水资源处理效果好、处理成本低等优势,是锅炉补给水处理的最后一道关口。基于此,本文结合混合离子交换器的基本设
气凝具有高比表面积,低密度以及高绝缘性等性能,被广泛用于污水处理,组织工程,柔性装置和超强吸附材料等多个领域。魔芋葡甘聚糖(KGM)气凝胶资源丰富,安全无毒,是一种可再生、
目的通过对甲型H1N1流感疫苗不良反应的信号挖掘分析,为临床合理安全用药提供参考。方法采用关于甲型H1N1流感疫苗的报告比值比法(ROR)和比例报告比值法(PRR)对美国FDA和CDC
目的探讨盆底重建术治疗盆底障碍性疾病的效果以及患者炎症及应激反应情况。方法选取2016年1月—2017年7月在温州市中西医结合医院治疗的盆底功能障碍性疾病患者106例,根据最
与文化密切相关的影视字幕翻译在国内并没有受到足够的重视。国内的影视字幕翻译缺乏系统的翻译理论指导。Sperber &Wilson (1986)提出的关联理论,认为交际是一个涉及信息意
文学作品的翻译,要求译者不仅能再现原文的信息内容,更需兼顾原作者的风格特点。前景化语言是表现原作者风格的主要方式之一。因此,文学文本翻译成功与否,很大程度上取决于充
近日,由中科宇图天下科技有限公司主办的"第二届中国环境信息化高峰论坛"在广西南宁隆重召开。本届论坛以"服务环保智慧先行"为主题,受到了环境保护部的高度重视,中国环境科学学