论文部分内容阅读
蛋白质序列可以按照功能,结构,亚细胞位置等分成不同的类别。
在计算生物学中的一个很重要的问题是如何自动地进行这个分类过程。
我们从两个角度使用核方法来解决这个问题:首先建立新的字符串核,其次开发新的基于核的学习算法。
首先,我们在核方法的范畴内介绍一个对蛋白质序列相似性建模的框架。在这个框架下,我们可以更灵活的构造不同的核函数为支持向量机的输入。现有的字符串核方法都是基于显式的定义从蛋白质序列到向量空间的特征映射。而我们的方法是通过局部核函数构造和核组合的方法来直接建立核函数的。我们提出的框架提供了有生物意义的核函数,因为我们选取有区分能力的k长氨基酸序列和考虑到了错配,BLOSMM62分值,InterPro项和基因本体。我们在关于蛋白质亚细胞定位和远同源性检测的两个不同的数据集上做了实验。实验结果表明使用我们构造的核函数的支持向量机可以取得比现有的基于序列的方法更好的结果。当使用了InterPro和基因本体的先验知识后,我们的方法和其他使用先验知识的方法有相似的性能。
其次,我们探索了亚细胞位置之间的依赖关系,并且将这种关系用于支持向量机来进行蛋白质亚细胞定位。传统的预测系统使用了“平面”分类器组合结构,比如说一对其他方法和一对一方法。所以,现有的研究基本上都忽略了亚细胞位置问的依赖关系。和这些方法不同,我们使用了一个层次化结构来组织亚细胞位置并且对它们之间的关系建模。我们提出了四种层次化的预测方法,并且在三个数据集上做了比较实验。试验结果表明三种层次化模型在树损失的评价指标下比传统的“平面”模型有提高。有一种层次化模型在所有评价指标下都比“平面”模型有提高。