基于机器学习方法的SYK抑制剂活性预测模型

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:windcode2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
类风湿性关节炎是一种慢性和进行性自身免疫性疾病,其病理特征是整个身体多个关节出现对称性肿胀和疼痛。它的大多数临床表现是关节炎症,它是所有慢性炎症性关节疾病中最常见的,并影响大多数成年人。基于类风湿性关节炎的发病机理以及相关的分子细胞和病理生理学研究,发现脾酪氨酸激酶(SYK)在类风湿性关节炎的发病机理中起着非常重要的作用。SYK(Spleen tyrosine kinase)全称是脾酪氨酸激酶,是一种非受体型酪氨酸激酶。SYK抑制剂可以用于治疗类风湿性关节炎。本文引用了许多种可以对SYK产生强的抑制活性的小分子物质。根据小分子的活性(p IC50)值,利用Python进行了定量构效关系(QSAR)研究,并建立了训练集、测试集和验证集,使用多种机器学习算法来测试这三个数据集的预测能力,结合四种机器学习算法对SYK抑制剂进行QSAR建模分析,从而筛选出一些特征值描述符对新的SYK抑制剂的活性值进行预测。具体研究内容如下:(1)筛选描述符:通过特定的选择算法对使用的1444个描述符进行筛选,经过三步筛选操作以后,剩余的描述符数量为一百个以内,并且相关性都在0.6以下。自身方差变化都高于0.1。(2)建立QSAR模型:使用随机森林等算法对238个结构多样的SYK抑制剂进行活性预测,并且使用特征值选择算法对剩余的几十个描述符进行特征值选择,最终建立的QSAR模型不但有很好的预测效果,而且还能鉴别出与SYK抑制剂活性相关的重要描述符。同时本文也使用遗传算法耦合支持向量回归技术对SYK抑制剂进行预测,该算法可以同时实现对描述符进行选择和对支持向量机参数进行优化,这样不但可以大大增加模型的计算效率,而且还提高了模型的预测能力。该模型最终给出训练集相关系数R2train=0.94,测试集预测相关系数R2test=0.91。使用建立的模型可以在药物合成前对SYK抑制剂进行筛选、预测和优化。(3)通过以上的这些方法本文产生了最终的结果。特征值选用10个以内的2D描述符,得到的结果分别为:随机森林算法训练集R2=0.91;支持向量机算法训练集R2=0.94;KNN算法训练集R2=0.76;GBRT算法训练集R2=0.88。都达到了较好的结果。本文所建立的模型都展示出了较高的预测能力,它们在药物设计的早期便可以筛选出理想的药物分子,并且可以为以后合成高活性的药物分子提供强有力的理论支持。
其他文献
图像分类是计算视觉领域的一个重要分支,随着软硬件水平的提高,基于深度学习的图像分类方法已经成为近几年的研究热点。其中,卷积神经网络模仿了生物视觉系统的结构,具有强大的特征提取能力,对于处理图像数据展现出了良好的表现,已经成为图像分类领域广泛使用的结构。然而,卷积神经网络所提取的部分特征在不同样本类别间的分布差异较小,对分类的贡献度不大,甚至会造成分类精度的下降。鉴于此,本文针对基于特征选择的图像分
利用传感器监测地震动在诸多领域具有广泛应用。应变传感器具有制造成本低、器件集成方便等优点,然而传统的应变传感器灵敏度较低,难以用于地震动监测。近年来提出的基于纳米裂纹的应变传感器具有超高灵敏度,有望实现对地震动的监测。本文研究了两种纳米裂纹的图案化方法,设计制造了一种用于地震动监测的悬臂梁式纳米裂纹应变传感器,并对其性能进行了测试。提出了一种基于V型沟槽的纳米裂纹图案化方法,利用聚二甲基硅氧烷(p
在我国发展双循环的新发展格局下,工业机器人作为高端制造装备,在各行业使用密度逐渐增加,其国产化势在必行,而工业机器人绝对精度较低,需定期校正,以保证产品质量以及加工效率,这势必会对工业机器人空间位置精度测量仪器提出更高需求。激光跟踪仪作为一种突破测量空间局限的仪器,在工业机器人精度校正中的作用日益突出。传统激光跟踪仪采用主动跟踪的方式,具有复杂的跟踪控制系统,研制成本过高,不利于推广使用,因此研制
可生物降解器件是一种使用可降解材料制备而成的器件,它不仅能实现设计的功能,而且可以在任务完成后在一定下条件完全降解、不留痕迹,这种特点使其在植入式医疗领域发挥着重要的作用。然而面对实际应用,可生物降解器件依然存在一些问题:材料方面,传统电子器件使用的多是不可弯曲、不可降解的材料,这对于可生物降解器件并不适用。器件方面,监测植入式药物释放系统的进给量等方面均需要位移传感器,然而目前没有关于可生物降解
传染病在人类历史上屡次对人类生命及财产安全造成重创,从天花、鼠疫、SARS再到2019年底爆发的新冠疫情,每次大规模疫情的爆发都对人类社会的正常发展造成了不可估量的损失。在与传染病的漫长斗争过程中,人们尝试各种方法研究传染病的传播规律以预测其发展趋势,因此传染病动力学模型应运而生,它能够根据群体内各状态人数变化情况、环境因素和人为因素对疫情的发展趋势进行定量预测。模型的数据输入是预测不可或缺的必要
液体晃荡是指在外部激励作用下,部分装载的舱室内液体所产生的波动及其与舱壁结构相互作用的现象。特别当外部激励频率接近液舱的固有频率时,舱内液体会发生剧烈共振响应,可能会改变主结构的动态特性并带来潜在的安全风险。该问题在工程中的应用非常广泛,例如运输液化天然气的液舱和火箭燃料箱等。因此,研究晃荡液体的特性是非常有必要的。采用物理模型实验对水平简谐激励下的液体晃荡问题进行了研究。基于连续小波变换方法,研
阿尔茨海默症(Alzheimer’s disease,AD)是一种不可逆转的神经退行性疾病,严重危害着老年人的身心健康。随着人口老龄化的影响,我国AD的发病率仍然在不断升高。由于AD发病过程缓慢,往往一经发现就已经到达晚期,且尚无有效的治愈方法。但是如果能尽早检查出AD并实施治疗和干预,则能够有效地减缓甚至抑制病情的发展。因此,实现AD的早期诊断已经成为计算机辅助诊断领域的一个重要研究课题。轻度认
悬挂衣物的抓取任务一直是机器人领域非常重要的课题。然而由于衣物复杂的动力学属性、褶皱和自遮挡等因素,导致衣物的局部特征不明显,给抓取任务带来了很大困难。本文将对衣物抓取点的检测任务,从数据集和检测算法两个方面进行研究。主要工作如下:(1)制作了高质量的模拟数据集。针对数据集采集困难的问题,本文利用模拟的方法生成大量数据。使用模拟软件Maya模拟衣物模型自然的悬挂状态,获取到清晰的深度图片和精准的抓
漂浮式光生物反应器是一种新型光生物反应器,它利用波浪能作为混合驱动的能量来源,减少了养殖过程之中的能耗,而且光生物反应器的制造成本较低,有望实现低成本微藻生产。但是漂浮式光生物反应器也存在着培养过程中自动化程度低、消耗大量人力资源和微藻生长指标检测具有迟滞性的问题。针对上述问题,本研究为漂浮式光生物反应器增加了生产辅助设备、数据采集及控制部分、数据显示及存储部分,共同组成了微藻养殖控制系统。在漂浮
人体肠道菌群拥有的基因比人体的基因大约多150倍,是一个复杂的生态系统。它不仅受宿主生存状态的影响,而且对宿主的健康与疾病也有着深远影响。在过去10多年间,大量的研究发现肠道菌群与肥胖状态关系密切。然而,在已发表的关于肠道菌群与肥胖相互作用的研究成果中,一致性的结论很少,而且大多数的方法、结果都不具有推广性。其中,研究队列的规模较小、研究方法相对单一是造成这种现象的重要原因。为了确定正常个体与肥胖