论文部分内容阅读
分枝杆菌可以导致许多非常严重的传染性疾病,如结核病、麻风病。这种细菌拥有着复杂的细胞膜结构和不同于其他疾病细菌的特殊毒性因子,尤其是它的膜蛋白对其产生多种抗药性以及在极端条件下生存起到了关键最用。掌握分枝杆菌蛋白质在细胞中亚细胞位置以及膜蛋白的不同类型,可以为分枝杆菌蛋白质功能的研究、注释以及药物靶标的设计与开发提供新的思路与见解。本文主要使用最优三肽组分作为表征分枝杆菌蛋白质的特征参数,提出了一种可以对分枝杆菌蛋白质进行准确亚细胞定位,快速区分分枝杆菌膜蛋白与非膜蛋白,并对膜蛋白具体类型高效预测识别的新方法。通过构建的167条分枝杆菌蛋白质亚细胞定位数据库,274条分枝杆菌膜蛋白数据库,以及295条分枝杆菌非膜蛋白对比数据集,来评估检测本文所提出的方法的准确性与有效性。三肽组分被用来表征分枝杆菌蛋白质序列,反映其内在氨基酸组成和关联信息,并使用二项分布方法对三肽组分进行特征筛选,得到最优三肽集合,而后使用支持向量机算法实现类型判别和分类预测模型构建。Jackknife检验结果显示,在使用本文所提出方法对分枝杆菌蛋白质进行亚细胞定位时,总体准确率达到94.0%,平均准确率为90.1%;在对分枝杆菌膜蛋白与非膜蛋白区分时,总体正确识别率为93.0%,平均正确识别率为92.9%;对分枝杆菌膜蛋白类型进行预测时,总体预测准确度则达到了93.1%,平均预测准确度为83.6%。通过与不同特征参数、不同分类算法以及其他研究者所提出的方法进行多方面预测性能对比,证明了本文所提出方法具有优良性能。鉴于此,我们在该模型的基础上构建了一个名为MycoMemSVM的分枝杆菌膜蛋白类型在线预测分类器,可通过http://lin.uestc.edu.cn/server/MycoMemSVM免费使用,本文所构建的分枝杆菌蛋白质数据库也可由此服务页面免费下载。相信这个在线预测服务凭借其优良的分类预测性能及较好的鲁棒性,将会成为分枝杆菌膜蛋白功能注释以及抗分枝杆菌药物研发的优秀工具。