论文部分内容阅读
目的:药物靶点的定位是药物开发成败的关键。然而,目前被临床验证的药物靶点的数量还很少,因此迫切需要挖掘更多的新药物靶点。在已知的药物靶点中G蛋白偶联受体(GPCR)占绝大多数,它和高血压、哮喘、疼痛、神经和免疫紊乱等多种疾病有着密切联系。由于GPCR其七次跨膜构象复杂,空间结构很难从实验中获取,因此,它们的功能就更难确定了。在本研究中,我们结合蛋白质序列、多肽、及蛋白质基本理化性质等特征构建支持向量机(SVM)分类器,来预测GPCR中潜在的药物靶点,为药物开发提供理论支持。方法:本研究利用SVM方法,通过对GPCRDB,Uniprot,DrugBank三大数据库中蛋白质序列的筛选,构建两组不同的分类器来预测GPCR中潜在的药物靶点。一类分类器是将人类确认的药物靶点作为阳性结合,筛选得到的非药物靶点作为阴性集合;另一类分类器是将确认为药物靶点的GPCR作为阳性集合,筛选得到的GPCR非药物靶点作为阴性集合。对以上两组蛋白序列中每一个序列提取其相应的蛋白质的一级结构、多肽特征及蛋白质的基本理化性质特征,作为训练分类器的特征空间。利用遗传算法实现特征空间的选择,并通过对模型参数的调整来构建两组最优分类器。最后,将这两组最优分类器都用于对GPCR潜在药物靶点的预测。结果:根据第一组数据集合训练的分类器其分类的准确率为72.63%,敏感度为77.44%,特异度为67.55%。第二组分类器的准确度,敏感度、特异度都在95%左右。将这两组分类器用于对未分类的GPCR集合预测,发现其中有141个GPCR同时被这两类分类器预测阳性,这个比例占到了整个GPCR的17.5%,这一结果对GPCR的研究有着很重要的参考意义。结论:通过构建两组分类器来实现对GPCR药物靶点的预测,两组分类器相互验证,增加了分类结果的可信度。在这些同时被预测为阳性药物靶点的141蛋白质中,其中有39个在治疗靶点数据库中能找到,这也进一步证明了此方法的可行性和正确性。