论文部分内容阅读
应用机器学习的药物设计早已是药物研究中的重要方法之一,而近年来随着深度学习在各个领域的成功应用,将与深度学习的相关框架应用在药物重定位是一个值得研究的问题。本论文中通过组合深度结构与药物有关的各种属性信息进行模式挖掘,期望找到在一些相关应用中的药物候选物的发现策略,从而能够在一定程度上加快药物重定位的研发速度。本文的具体内容包括以下四个方面:(1)根据药物与靶标活性信息、靶标蛋白特征信息以及药物分子结构信息进行活性小分子的推荐算法研究。在这一部分中,首先将基于项目的协同过滤推荐算法应用在活性小分子推荐中,然后利用AEuserbasedCF模型对推荐结果进行提升。在AEuserbasedCF模型中,首先将深度学习中的AE模型应用在靶标蛋白特征信息的降维中,然后把降维后的数据加入到基于用户的协同过滤推荐算法中,通过与之前没有加入降维信息的普通UserbasedCF对比发现其推荐精度有了显著提高;之后提出HybridSimCF模型重点解决推荐系统中的冷启动问题,具体是通过基于配体特征的方法进行改进,提取药物分子的2D结构信息并进行深度模型的降维处理,然后依据该数据计算药物小分子的相似度后,再进行活性小分子推荐。(2)根据药物与疾病的关系进行深度学习的算法研究。将药物与疾病分别映射为复杂网络中二部分网络的两个不同节点集合,由此将药物重定位问题转化为复杂网络的链接预测问题,然后应用受限波尔兹曼机(RBM)模型在该数据集上建模,与该领域中的其他算法比较AUC值发现RBM对于药物与疾病关系的潜在模式挖掘具有优势,在实验中仅是通过对于药物与疾病的二部分关系网络进行建模而不添加其他信息,其预测精度就要比其他算法有所提高,对于预测结果中的一些候选药物在相关数据库和文献中也得到应证,该实验结果说明药物与疾病的关系虽然是复杂网络,但有自身的分布特征,利用深度学习方法探索其内部特征是有实践意义的;之后再根据复杂网络中链路预测的主要指导思想,即“节点越相似,则越可能产生链接”,提取对于局部节点的特征描述数据并基于原有关系组成有标签的数据集,在该数据集上使用NNRBM模型进行有监督学习,同时通过增加冲量的方法加快模型的训练过程,从而得到可预测链接的最优模型。(3)将药物、蛋白、副作用等相关属性加入药物与疾病的关系后进行推荐算法研究。考虑到药物的三种属性数据均有自身的分布模式与信息特征,因此在运用基于用户的协同过滤推荐算法之前,对药物信息进行有效的降维和特征提取。本文中通过两个深度框架DeepFramework1和DeepFramework2对药物属性信息进行提取,再通过与传统PCA方法对比发现两种不同的降维框架都可以在降维的同时更多地提取到原数据中潜在信息,其中DeepFramework2的模型表现更好。对于提取后的数据进行相似度计算后,与药物与疾病的评分矩阵一起进行基于用户的协同过滤的推荐,然后将实验计算的的数据集中所有药物Top20的推荐结果通过网页展示出来,以供研究者进行查询和进一步分析。(4)将基于多任务DBN模型应用在的药物重定位的预测中。药物重定位中的一个指导思想是:当药物被发现可以重定位某类疾病时,该药物的副作用越少则越有可能被选中进入下一步的实验。由于大部分药物在作用于人体时均会产生副作用,而有的药物副作用更有可能多达上百个,因此当为药物找到新适应症后,还需要对比药物的副作用情况。通过分析发现该任务非常适用于机器学习中的多任务学习方法解决,因此在将疾病和副作用分别进行分类整理后,应用MNN模型与MDBN模型分别进行学习预测,通过对任务分配不同权重后对比模型的计算结果发现,基于MDBN模型非常适用于药物重定位的任务,其在预测药物候选物时具有更好更稳定的效果。通过以上四个方面,本文将深度学习方法成功应用在药物重定位领域的候选药物推荐中。虽然药物发现是一个耗时费力的过程,然而通过本文的所有实验证明新兴的深度学习作为一个研究工具,对于药物重定位有很大的促进作用,对于提高药物重定位速度,降低研发成本等方面均有非常重要的实践意义。