论文部分内容阅读
随着科技的进步,越来越多的药物被研发出来对抗各种疾病,而药物研发的过程需要花费大量的物力、人力,且研发周期长。药物研发的整个过程中需要考虑该药物的ADMET(吸收,分布,代谢,排泄,毒性)五个特性,其中药物毒性中的致突变性与癌症密切相关。在药物研发的最后阶段动物人体试验阶段,会对药物的对人体的致突变型进行测试,而在这个阶段往往有很多药物的致突变性实验结果会因为对动物或者人体损害太大而被放弃研发,这样便浪费了之前各个阶段的资金投入。近年来,计算机技术中的模式识别技术迅速发展,被应用到社会上的各个领域,生物信息和药物研发也是模式识别的一个重要研究方向。本系统的主要功能是利用机器学习算法对化合物的致突变性进行预测分类,通过分类模型对化合物致突变性相关的化合物特征进行分析。系统提供大量的化合物以及化合物的特征属性作为分类模型的训练集,其中包括各研究机构对该化合物致突变性研究的结果。系统为用户提供化合物特征计算、特征选择、数据清洗、分类模型建立、化合物致突变性预测、结果分析、结果文件保存等功能。研究人员可以根据预测结果来分析影响化合物致突变性的关键特征。系统使用Java语言开发,使用的Spring MVC框架进行系统架构,使用MySQL数据库进行化合物特征和个人信息等数据的存储,实现了数据处理模块、预测分类模块、结果分析模块、系统管理模块和个人信息模块。在数据处理模块中,系统根据化合物的SMILES序列计算出化合物的1446纬化合物特征描述符并对特征数据进行缺失值处理和规范化等操作,再使用信息增益、CFS和Relief等特征选择算法来对特征进行降维处理。在预测分类模块中,系统采用支持向量机算法模型再使用Adaboost算法对支持向量机模型进行迭代提升,从而提高系统的预测准度。经过各种交叉验证和独立测试集验证,系统能够较为准确的预测化合物的致突变性,精确度达到83.5%。在功能上和性能上都能满足用户的需求,达到预期研究效果。