论文部分内容阅读
单体蛋白质通过与其它蛋白质相互作用来发挥其生理功能,确定和分析蛋白质相互作用有助于理解细胞过程的分子机制,寻找用于开发疾病诊断方法或新药的信息。目前,大最新的蛋白质相互作用信息以研究论文形式发布,这些论文通常被收录于生物医学文献数据库中。对于研究人员来说,如果用人工阅读方式从海量的文献数据库中提取出蛋白质相互作用信息非常耗时耗力,不利于研究工作的开展,如何快速有效的获得这些信息非常重要。本文对“蛋白质相互作用信息提取”,这个具有重要理论意义和广阔应用前景的课题进行研究和探索。 主要研究工作如下: 针对现有蛋白质相互作用信息提取算法存在的局限性,提出了一种分两步骤实现的蛋白质相互作用信息提取算法,即:先应用支持向量机(SVM)提取文献中的蛋白质名称信息,然后通过关键词匹配技术提取文献中的蛋白质相互作用信息。该方案为蛋白质相互作用信息提取研究提供了一条新颖的研究思路。 对口前该研究领域内常用的数据集进行比较分析,选择语料丰富的GENIA3.02作为本文研究的主要数据集。通过实验发现:对五种单词特征(单词、词性、单词前缀、单词后缀、前导类别信息)进行了不同的组合,以五种特征组合的蛋白质名称信息提取算法性能最好:SVM方法应用到蛋白质名称信息提取领域,其性能好于传统的基于词典提取方法,与最大熵方法性能相近;本文设计的两步实现蛋白质相互作用信息提取算法与该研究领域其它方法比较,性能较好。 最后,本文设计了一种蛋白质相互作用信息提取系统。该系统采用模块化结构实现,包含如下六个模块:文献预处理模块、特征提取模块、蛋白质名称信息提取模块、蛋白质名称信息提取结果筛选模块、蛋白质相互作用信息提取模块和数据显示模块。已完成除数据显示模块外其它模块核心程序的研究和实现。