论文部分内容阅读
蛋白质相互作用(Protein-Protein Interaction,PPI)是细胞中一类极其重要的生物分子活动,这类活动参与细胞生命周期各个生物学过程。对其研究不仅有助于我们认识生命活动更深的层次,同时对临床疾病的诊断和治疗也具有重要意义。随着生命科学研究的发展,研究成果文献也日益增多。这些文献中含有大量的PPI知识以及PPI最新的研究发现。然而传统的手工阅读文献方式已经难以及时、高效地收集和整理这些信息,从而使得分子生物学家的研究工作变得越发困难,成为人们面临的一大挑战。采用自动化的挖掘方法从文献中获取蛋白质相互作用信息并进行信息结构化存储和展示是解决这一难题的有效途径。然而目前蛋白质相互作用自动挖掘研究领域仍存在不少不足之处:蛋白质相互作用关系挖掘方法性能仍需进一步提高;缺乏合理的描述蛋白质相互作用的注释体系,限制了蛋白质相互作用重要功能注释信息的深入挖掘;缺少满足批量化数据处理需求的蛋白质相互作用辅助挖掘平台以及对文献挖掘结果进行结构化存储和展示的蛋白质相互作用知识库等等。针对这一系列问题,我们提出本课题研究目标:在蛋白质相互作用关系挖掘方法提升基础上,进一步构建蛋白质相互作用本体用于挖掘蛋白质相互作用注释信息;同时,基于建立的蛋白质相互作用挖掘方法开发适合当前需求的蛋白质相互作用挖掘平台,设计适合存储和展示文献挖掘结果的蛋白质相互作用知识库。首先,我们建立了对文献数据进行蛋白质相互作用关系挖掘的支持向量机(Support Vector Machines,SVM)方法。该方法整合四种有效句子特征,即关键词特征、词性特征、逻辑特征以及依存句法特征,并对这些特征进行组合优化研究。在LLL05测试语料上,基于SVM方法取得了准确率为81.8%,召回率为96.4%和F值为88.5%的良好效果。方法的效果优于当前在同一测试集上最好方法。然后,我们构建了蛋白质相互作用功能注释体系——蛋白质相互作用本体(PPI Ontology)。为了更好地挖掘蛋白质相互作用注释信息,我们从蛋白质相互作用本质——生物分子事件的角度出发,提出蛋白质相互作用本体框架,包含蛋白质相互作用发生时间、地点、发生方式、结果以及证据等方面信息。通过这个框架明确了蛋白质相互作用信息的范畴,通过重用现有相关本体以及重新构建蛋白质相互相互作用类型本体,整合得到了包括相互作用参与者的角色及状态、生物学过程、亚细胞定位、相互作用类型、生物学功能以及检测方法六个部分在内的蛋白质相互作用本体。该本体在BC-PPI测试语料集以及人类肝脏相关文献蛋白质相互作用注释信息挖掘应用上取得了较好效果。进一步,我们在构建的蛋白质相互作用挖掘方法基础上,开发了蛋白质相互作用文献挖掘平台(PPICurator)。该平台考虑了当前批量化文献及蛋白质数据处理的需求。同时,用户可以在文献检索及蛋白质相互作用挖掘结果阶段进行数据筛选。平台还具有对蛋白质相互作用挖掘结果进行导出和可视化等功能。该系统可以有效提高研究人员挖掘领域相关文献的蛋白质相互作用信息的速度。最后,我们设计并实现了用于存储从文献挖掘得到的蛋白质相互作用数据的知识库系统(db PPII)。该系统采用浏览器/服务器(B/S)架构,能为用户提供基于本体概念名称、蛋白质名称和蛋白质名称对三种方式来查询和获取蛋白质相互作用信息。同时本体的层次结构可以直观展示蛋白质相互作用的功能分布,具有导航和浏览作用,为用户查找相应功能蛋白质相互作用提供了垂直、便捷的方式。综上所述,本研究工作有以下几点创新之处:(1)基于SVM模型探索了关键词特征、词性特征、逻辑特征以及依存句法特征多个有效的学习特征在蛋白质相互作用关系挖掘中的不同作用效果,并最终获得了这些特征的最优组合,是目前在同一测试数据集上的最好方法。(2)新的蛋白质相互作用注释体系的构建。该体系首次从生物分子事件的角度描述蛋白质相互作用,建立蛋白质相互作用本体,更符合蛋白质相互作用知识表示以及适用于文献挖掘任务。在相互作用注释信息挖掘任务中取得了较好的效果。(3)基于研发的SVM蛋白质相互作用挖掘方法搭建全新的蛋白质相互作用挖掘平台。该平台针对当前大规模数据处理需求,独有蛋白质和PMID批量化查询、文献检索、基于物种的文献分类筛选以及相互作用方向和类型挖掘等功能,较现有的蛋白质相互作用挖掘系统更合理、便捷。(4)针对文献来源的蛋白质相互作用信息的数据库的结构和功能设计。该数据库的结构针对丰富的蛋白质相互作用信息存储需求设计,同时利用本体的层次结构对蛋白质相互作用信息进行了分类导航及展示,便于研究人员对蛋白质相互作用信息进行获取。