论文部分内容阅读
药物靶点相互作用(DTI,drug-target interaction)的准确识别是药物发现过程中一项关键而具有挑战性的任务,对患者和制药企业都有着巨大的益处。传统的DTI湿室实验成本高、耗时长、劳动强度大,因此建立计算方法及时预测潜在的DTI是非常必要的。幸运的是,使用计算方法可以识别新的相互作用(药物靶点对),并加速药物再利用的过程。在本论文中,具体研究了基于现有药物先验知识及其实验确定的靶点来识别新的相互作用的技术。此外,本文工作还发现并解决了DTI预测中的主要问题。在解决了这些问题后,能够提高预测性能,并优于其他方法。
迄今为止,人们提出了多种计算技术来简化药物的发现过程,但仍有大量的相互作用尚未被发现。此外,在实验中类不平衡是一个巨大的挑战,它会显著降低分类的准确性,而这一问题还没有得到有效的解决。目前,药物靶点特征及其相互作用的数量也在不断增加,使得传统的计算方法无法进行预测和分析。此外,精确的相互作用也依赖于负性药物靶点对,因此建立一种用来产生有效负性对的技术是有意义的。
第一,由于药物靶点对没有有效的特征表示,DTIs预测方法很难发现靶点或药物之间的相互作用。为了预测相互作用,本文提出了一种基于药物化学结构和蛋白质序列的高通量DTI识别计算模型。具体而言,蛋白质序列是通过位置特异性评分矩阵(PSSM)-Bigram、两亲性伪氨基酸组成(AM-PseAAC)和代表进化和序列信息的二肽PseAAC描述符来提取的。药物的化学结构用能够描述功能片段或基团的存在性的分子亚结构指纹图谱(MSF)来表征。来表征。此外,采用SMOTE过采样技术克服了数据集的不平衡问题,并采用XGBoost算法作为对DTI进行预测的分类器。实验分析表明,该模型在ROC(auROC)曲线下面积方面优于同类方法。
第二,有些DTI数据集中用于表示药物和靶点的特征集具有高维性,这可能导致预测任务的运行时间更长,并导致预测性能下降。因此,探索一种新的鲁棒模型来获得降维特征对于有效预测具有重要意义。在本文中,通过引入基于支持向量机的多核学习(MKL)和多种降维技术,提出了一种新的用于DTIs预测的多标签算法。为了计算和选择排名靠前的药物和靶点,本文研究了一种基于聚类的分子相似性(CluMS)算法。从给定的药物或目标特征开始,将三维降维技术应用到药物目标特征提取中。最终,将基于多核函数的学习器与降维特征一起训练,并融合其预测分数得到最终结果。
第三,类不平衡是所有DTI数据集中普遍存在的问题。因此,本文提出的方法利用聚类欠采样(CUS)技术来管理数据平衡,并开发了一种新的特征消除器EnsRFS来从药物蛋白数据集中提取最佳特征,提高了预测效率。更具体地说,每一个药物分子都被转化为亚结构指纹,其中保留了某些化学结构信息的功能片段。对于蛋白质序列,利用不同的描述符来表示其进化信息、序列信息和结构信息。最后,根据预测概率得分引入新的药物靶点相互作用样本,为进一步的药物开发提供激励。
第四,差分表示偏差对DTI预测方法的预测性能是有影响的。具体地说,差异表示偏差是指药物(或靶点)相对于阴性数据在阳性训练数据中出现的程度。为了解决这些问题,本文研究了一种MMIB技术来处理数据集中的大多数和少数实例,并利用LASSO模型将特征转换为低维空间。此外,在本文的工作中,训练了具有平衡和简化特征的卷积神经网络算法来精确预测DTI。
迄今为止,人们提出了多种计算技术来简化药物的发现过程,但仍有大量的相互作用尚未被发现。此外,在实验中类不平衡是一个巨大的挑战,它会显著降低分类的准确性,而这一问题还没有得到有效的解决。目前,药物靶点特征及其相互作用的数量也在不断增加,使得传统的计算方法无法进行预测和分析。此外,精确的相互作用也依赖于负性药物靶点对,因此建立一种用来产生有效负性对的技术是有意义的。
第一,由于药物靶点对没有有效的特征表示,DTIs预测方法很难发现靶点或药物之间的相互作用。为了预测相互作用,本文提出了一种基于药物化学结构和蛋白质序列的高通量DTI识别计算模型。具体而言,蛋白质序列是通过位置特异性评分矩阵(PSSM)-Bigram、两亲性伪氨基酸组成(AM-PseAAC)和代表进化和序列信息的二肽PseAAC描述符来提取的。药物的化学结构用能够描述功能片段或基团的存在性的分子亚结构指纹图谱(MSF)来表征。来表征。此外,采用SMOTE过采样技术克服了数据集的不平衡问题,并采用XGBoost算法作为对DTI进行预测的分类器。实验分析表明,该模型在ROC(auROC)曲线下面积方面优于同类方法。
第二,有些DTI数据集中用于表示药物和靶点的特征集具有高维性,这可能导致预测任务的运行时间更长,并导致预测性能下降。因此,探索一种新的鲁棒模型来获得降维特征对于有效预测具有重要意义。在本文中,通过引入基于支持向量机的多核学习(MKL)和多种降维技术,提出了一种新的用于DTIs预测的多标签算法。为了计算和选择排名靠前的药物和靶点,本文研究了一种基于聚类的分子相似性(CluMS)算法。从给定的药物或目标特征开始,将三维降维技术应用到药物目标特征提取中。最终,将基于多核函数的学习器与降维特征一起训练,并融合其预测分数得到最终结果。
第三,类不平衡是所有DTI数据集中普遍存在的问题。因此,本文提出的方法利用聚类欠采样(CUS)技术来管理数据平衡,并开发了一种新的特征消除器EnsRFS来从药物蛋白数据集中提取最佳特征,提高了预测效率。更具体地说,每一个药物分子都被转化为亚结构指纹,其中保留了某些化学结构信息的功能片段。对于蛋白质序列,利用不同的描述符来表示其进化信息、序列信息和结构信息。最后,根据预测概率得分引入新的药物靶点相互作用样本,为进一步的药物开发提供激励。
第四,差分表示偏差对DTI预测方法的预测性能是有影响的。具体地说,差异表示偏差是指药物(或靶点)相对于阴性数据在阳性训练数据中出现的程度。为了解决这些问题,本文研究了一种MMIB技术来处理数据集中的大多数和少数实例,并利用LASSO模型将特征转换为低维空间。此外,在本文的工作中,训练了具有平衡和简化特征的卷积神经网络算法来精确预测DTI。