论文部分内容阅读
参与诸多种类有机体生命过程的蛋白质相互作用(Protein-protein interactions, PPIs)是解开生命奥秘的关键。随着科技的发展,生物实验所证实的PPIs数据不断积累且PPIs预测方法也不断地完善。因而,研究PPIs预测方法兼具有理论和实际意义。本文结合结构域信息和结构域相互作用(Domain-domain interactions, DDIs)信息构建特征向量(D-DDIs特征向量),训练决策树(Decision tree, DT)和支撑向量机(Support vector machine, S VM)两个PPIs预测器(DT-PPIs、SVM-PPIs预测器)。在DT-PPIs预测器的构建中,本文使用一对对偶向量表示蛋白质间的作用关系。为使用DT-PPIs预测器缩减拟南芥PPI数据库(AtPIN)中非实验验证的假阳性PPIs,对比了采用不同等级大小的负正训练样本比例的5折交叉验证的敏感性(阳性样本的判别能力),结合独立的负测试样本的特异性(阴性样本的判别能力)来构建DT-PPIs预测器。在SVM-PPIs预测器的构建中,本文针对D-DDIs特征向量提出对偶式D-DDIs核,并验证其有效性。SVM-PPIs预测器的构建依据多级密度网格的5折交叉验证寻优。根据基因本体(GO)中对拟南芥的此生代谢产物芥子油苷的生物合成的注释基因产物结合生物学文献中参与芥子油苷代谢的基因,通过DT-PPIs预测器进行对AtPIN假阳性过滤,构建了较可靠、完整的芥子油苷代谢通路PPI网络。对于未参与在该网络中的基因AT1G74090和AT5G07690使用SVM-PPIs预测器进行所有可能的PPIs预测。进而,基于细胞元件GO分别使用并集交集商(UI)和最大相似路径长度(LP)两种计算方法计算PPIs亚细胞定位相似度,根据该相似度可对预测结果进行分级。