论文部分内容阅读
药物研发是一项耗资巨大、周期漫长、风险度高且成功率低的系统工程。据统计,新药研发从确定思路到投入市场需花费10-15年的时间、成本达8-15亿美元。诺贝尔奖获得者JamesBlack曾说过:“新药发现的最坚实的基础是从旧药开始。”因而,越来越多的医药公司试图通过对现有药物分子进行筛选,挖掘现有药物的新线索,以加速药物研发。加速药物研发的一个关键阶段是确定一个药物与一个靶标是否存在关联。因此,本文从药物-靶标相互作用预测的角度出发,根据不同任务提出不同算法,以对现有药物和靶标进行重定位,挖掘它们新的用途,推测相关疾病的新的治疗线索:首先,针对药物-靶标相互作用预测中经实验验证的负样本很难取得甚至无法获取这一现状,提出一种负样本构造方法NDTISE(Negative Drug-Target Interaction Sample Extraction),以筛选高质量的药物-靶标相互作用负样本。首先,本文融合药物和靶标的各种生物信息,把药物-靶标相互作用数据表示为一个向量,并基于特征在正样本集与未标记样本集中的判别能力得分选择药物-靶标相互作用样本的特征子集;然后,本文基于PU学习和多分类器组合思想筛选高可靠性的负样本,并计算代表性的正负样本原型和模糊样本的相似性权重;最后,根据已获得的正负样本和模糊样本的相似性权重建立基于SVM的分类模型并对未知数据进行分类,从而预测药物与靶标之间的关联。为评估模型的性能,本文进行了一系列比较实验,重点考察了三种负样本筛选方法在6种经典分类器上的分类性能:随机选择方法,NCPIS与NDTISE。实验结果表明NDTISE能有效筛选药物-靶标相互作用负样本。其次,针对现有预测方法中只有少数模型应用于为新的药物或靶标预测其关联信息这一现状,结合药物的化学结构相似性和靶标的序列相似性,提出一种单源信息预测模型 PreNNDS(Prediction combining Neighbor interaction profile inferring,Non-negative matrix factorization,Discriminative low-rank representation,and Sparse representation classification)。研究表明已知的邻居信息对药物-靶标相互作用预测起着重要作用,因而本文考虑药物-靶标相互作用矩阵的稀疏、低秩和非负特性,整合已知的邻居相互作用谱信息(Neighbor Interaction Profiles,NIPs)、非负矩阵因子化方法(Non-negative Matrix Factorization,NMF)、判别性低秩表示(Discriminative Low-Rank Representation,DLRR)与稀疏表示分类器(Sparse Representation Classification,SRC)进入一个统一框架,提出一种药物-靶标相互作用预测模型PreNNDS,为新的药物和靶标预测关联信息。PreNNDS首先基于药物和靶标的NIPs为每个药物一靶标对计算其关联概率,然后基于NMF方法提取药物和靶标的特征矩阵,并在此基础上建立基于DLRR的优化模型,最后基于SRC为新的药物和靶标预测其关联信息。实验结果表明PreNNDS能有效地为新的药物或靶标预测其关联信息。然后,针对现有方法考虑的信息比较单一这一现状,结合药物和靶标的各种生物属性,考虑药物-靶标相互作用网络的拓扑结构特征,提出了多信息融合方法 NormMulInf(Multi-Information fusion combining Norm idea)。该方法结合药物的化学结构相似性、靶标蛋白的序列相似性以及药物-靶标相互作用网络中药物与药物、靶标与靶标的拓扑结构相似性,计算药物的相似性矩阵和靶标的相似性矩阵;然后,利用少量已知标签的药物-靶标相互作用数据及大量未知标签的关联数据,基于鲁棒性PCA模型,分别基于药物和靶标提出药物-靶标相互作用预测方法 NormDrug(model based on Drug similarity and Norm idea)和 NormTarget(model based on Target similarity and Norm idea);接着,应用精确 ALM 算法对基于最小化核范数与l1范数的鲁棒性PCA模型进行求解;最后,在这两个算法的基础上提出多信息融合方法NormMulInf,以对缺失的药物-靶标相互作用数据进行补全。实验结果表明NormMulInf有效地融合了多种信息。最后,在确定模型性能的基础上,对现有药物和靶标进行重定位分析:基于筛选的高质量负样本对现有药物和靶标进行关联信息挖掘,为新的药物和靶标预测相互作用信息,为阿尔兹海默病推测新的治疗线索,挖掘标准数据集中的关联信息。对这些预测结果的进一步分析表明预测结果值得进一步的生物医学实验验证。总之,本文基于机器学习相关理论和方法,针对不同情况下不同任务的特殊需求,分别从负样本筛选、基于单源信息及多信息融合等三个方面对药物-靶标相互作用预测提出了不同的模型。在确定模型的性能后,对现有药物和靶标进行药物重定位,通过对现有公共数据库和文献的检索表明,本文的预测结果值得进一步的生物医学实验验证。