论文部分内容阅读
蛋白质序列之间的远程同源检测和蛋白质相互作用预测是计算生物学中一个中心的问题。诸如支持向量机(support vector machine, SVM)一类的分类器方法是目前使用最广泛、也是最有效的方法之一。许多基于SVM的方法都致力于寻找有用的蛋白质序列表示方法,如使用显式的特征向量表示或者核函数等。这样的表示方法面临着高维度和大量噪音的问题。另外,远程同源检测问题中的数据集是不平衡数据集,即反例样本远远大于正例样本,目前的方法主要使用ROC(Receiver Operating Characteristic)分数来评价远程同源检测方法的性能。然而,对不平衡样本集,ROC曲线会过于乐观的估计算法的性能。 基于这些观察,本文采用了一个新的特征空间重构的方法解决高维度和噪音的问题——基于潜在语义索引(Latent Semantic Index,LSI)和层次聚类的特征空间重构方法LSI-HC;并在远程同源检测问题中采用精确度-召回率(Precision-Recall,PR)曲线来代替ROC曲线来评估算法的性能。 对蛋白质同源检测问题,本文使用SCOP数据库1.53版本数据集作为标准数据集,采用具有生物学意义的 N元组以及局部比对核函数(LAK)作为特征。我们首先分析了原始特征之间的关联,证明了这些特征之间确实存在着很大的相关性,进而又引入了潜在语义索引来分析所有特征之间隐含的语义关系,并据此使用层次聚类重构特征空间,达到降低维数和消除噪音的目的。模型的建立采用的是SVM模型,最终的评价标准采用的是PR分数,在N元组特征上,我们的结果和 Dong et al.2006的方法进行比较,提高了14个百分点,在LAK特征上,和Saigo et al.2004的方法比较,提高了7个百分点。 对蛋白质相互作用预测问题,本文使用的是HPRD数据库中的标准数据集,使用的是3元组特征,实验结果和Shen et al.2007的结果比较,ROC分数提高了4.5个百分点。另外,我们对Wnt、IL-2、IL-7、Notch这四个信号通路中的蛋白质相互作用进行了预测,并画出了相互作用网络,较好的实验结果也证明了我们的方法对蛋白质互作网络的预测有着重要的意义。