论文部分内容阅读
蛋白质相互作用(Protein-Protein Interaction, PPI)是生命活动中一种极其重要的生物分子关系,其研究不仅具有理论意义,还具有较强的应用价值。近年来,随着研究深入,报道各种蛋白质相互作用的生物医学文献数目激增,生物学家阅读文献获取蛋白质相互作用信息的速度难以追赶文献增长速度,从而从文献中挖掘蛋白质相互作用知识成为人们面临的一大挑战。采用文本挖掘手段自动从文本中挖掘蛋白质相互作用信息,并将这些信息进行结构化展示是解决这一挑战的有效方法。目前,该领域当前存在一些重要问题亟待解决,例如蛋白质相互作用关系挖掘方法所取得的效果还有待提升;很少有工作进一步挖掘蛋白质相互作用注释信息;用于描述蛋白质相互作用信息知识体系不完善以及蛋白质相互作用信息展示缺乏一个良好结构等等。针对这一系列问题,我们提出本课题目标:在蛋白质相互作用关系挖掘基础上,进一步挖掘蛋白质相互作用的注释信息。首先,我们构建了蛋白质相互作用本体。为了更好地挖掘蛋白质相互作用注释信息,本文从蛋白质相互作用实质——生物分子事件——入手,提出蛋白质相互作用本体框架,一个蛋白质相互作用事件应该包括蛋白质相互作用发生时间、地点、发生方式、结果以及证据等方面信息。通过这个框架明确了蛋白质相互作用信息的范畴,通过重用现有本体以及重新构建蛋白质相互相互作用类型本体,整合得到了包括蛋白质状态、蛋白质相互作用类型、生物学过程、亚细胞定位、生物学功能以及检测方法六个部分在内的蛋白质相互作用本体。然后,开发了对文本进行了蛋白质相互作用关系挖掘的SVM方法。该方法为了判断蛋白质相互作用关系是否存在需要选择句子特征,包括词特征、词性特征、逻辑特征以及句法特征,并对这些特征进行组合。在测试语料上,基于SVM方法取得了准确率为82.4%,召回率为73.7%和F值为77.8%的效果。我们将该方法用于小鼠肝脏蛋白质相关文献中蛋白质相互作用关系挖掘任务。另外,还基于网络服务工具ProteinCorral对同样的语料集进行蛋白质相互作用关系挖掘。然后对两种方法进行了比较。进一步,我们在蛋白质相互作用关系挖掘基础上,基于蛋白质相互作用本体受控词汇对这些蛋白质相互作用关系进行注释信息挖掘,其中49.1%的蛋白质相互作用(PPI)能够从句子中挖掘其注释信息。同时,我们采用网络服务工具EBIMed实现蛋白质相互作用信息挖掘任务,分析发现,45.0%的蛋白质相互作用在句子中找到功能注释,90.1%的蛋白质相互作用在摘要中有功能注释。最后,设计了数据库用于存储得到的小鼠肝脏相关蛋白质相互作用信息,构建在线服务平台,为用户提供基于本体、蛋白质名称和蛋白质相互作用三种方式来查询蛋白质相互作用。基于本体的层次结构在整体上展示了蛋白质相互作用信息分布,为用户查找相应功能蛋白质相互作用及其注释信息提供了帮助。综上所述,本文工作有以下几点创新之处:(1)新的蛋白质相互作用本体的构建。从生物分子事件角度出发,提出一个符合蛋白质相互作用信息描述以及适用于文本挖掘任务的本体,该本体概括了蛋白质相互作用发生的生物学过程、亚细胞定位、生物学功能、相互作用类型、相互作用发生证据以及发生相互作用时蛋白质状态等信息。(2)将SVM方法在蛋白质相互作用关系文本挖掘方面的成功应用。将蛋白质相互作用关系挖掘作为一个分类问题,选取并组合句子相关特征用于判断蛋白质相互作用关系,进一步提高了蛋白质相互作用关系挖掘的效果。(3)基于本体受控词汇对蛋白质相互作用注释信息的挖掘。蛋白质相互作用注释信息对于蛋白质相互作用动态子网络构建极其重要,这些信息能够更准确地描述蛋白质相互作用在细胞活动中发生的时间、地点以及完成的生物学功能。(4)基于本体对蛋白质相互作用信息进行查询与展示。鉴于本体具有良好层次结构,我们利用本体对蛋白质相互作用信息进行了展示和分类,更利于研究人员对蛋白质相互作用信息查询以及进行不同功能的蛋白质相互作用比较。总之,本文提出了一种从文献中挖掘蛋白质相互作用及其注释信息的新方法,基于本体的蛋白质相互作用表示方法有利于更好的描述蛋白质相互作用信息,在线数据库可以为蛋白质相互作用信息的查询和使用提供了更方便的服务。