论文部分内容阅读
蛋白质作为生命活动的体现者并非孤立存在,而是通过相互的交互作用完成细胞中的大部分过程。蛋白质交互(Protein-Protein Interaction,PPI)网络的建立一直是研究生物过程关注的核心问题。因而由领域专家手工收集的PPI数据库纷纷建立。然而,随着生物医学文献的迅速增长,手工收集PPI信息远远不能满足研究的需要。目前,大量PPI信息仍隐藏在各种生物医学文献中。如何从这些文本中自动挖掘出PPI信息对于PPI网络的建立有着重要的意义。本论文从实际构建PPI网络的需求出发,针对目前蛋白质交互关系识别主要以单句为依据、依赖人工标注而导致训练集规模小等不足,提出了基于大规模文本的蛋白质交互关系自动提取两种方法。两种方法直接以目标蛋白质对为研究对象,以大规模文本为依据,对PPI的判定建立在更多的信息的基础上,直接利用已有的PPI数据库建立训练集而避免了人工标注的额外负担。其中一种方法采用了基于特征向量的机器学习方法,重点比较了四种对向量的特征进行加权和特征选择方案,实验取得了75.89%的F-Score值。另外一种方法在关系相似性研究的框架下建立蛋白质之间的本质联系。从单词、短语结构、依赖关系三个角度抽取特征,建立向量空间模型来表示一对蛋白质之间的关系,最后根据两个向量之间的相似性对关系作出判断。并取得了75.02%的F-Score值。