论文部分内容阅读
随着生物医学技术的飞速发展,相关文献的数量也在快速增长。从这些快速增长的生物医学文献中,提取出生物医学信息,成为目前文本挖掘研究的热点。蛋白质在生命活动中发挥着重要的作用,利用文本挖掘技术能够快速在生物医学文献中提取出具有相互作用关系的蛋白质,可以为生物医学专家的研究提供帮助。近年来大数据技术的发展为生物医学信息的提取提供了一种新的方法和思路。本研究基于特征向量的方法,实现了基于MapReduce的蛋白质相互作用信息抽取,具体过程如下:首先,构建蛋白质相互作用信息抽取系统。在本研究中,利用基于机器学习方法,对训练语料进行预处理,预处理的主要工作为:Tokenize处理、词性标注、浅层句法分析等。利用预处理的语料进行特征提取工作,提取出动词特征、词汇及上下文特征、基本短语块特征、短语特征等特征。利用这些特征形成特征向量,并采用LIBSVM测试抽取系统性能。实验结果表明,抽取系统性能良好。然后,在MapReduce上实现蛋白质相互作用信息的抽取。抽取的工作流程主要分为Map阶段和Reduce阶段。Map阶段主要工作为:对测试语料进行蛋白质命名实体识别、文本预处理、特征提取、特征向量构造等处理。Map阶段输出的Key值为蛋白质关系实例,Value值为关系实例对应的特征向量。Reduce阶段主要工作为:特征向量形式转换、加载训练好的分类模型、利用分类模型进行分类判断等。Reduce阶段输出的Key值为Reduce阶段输入的Key值,Value值为空值。实验结果表明,对于大量生物医学文本,在MapReduce上抽取蛋白质相互作用信息比在单机上抽取,可以节省大量处理时间。最后,利用在MapReduce上抽取的蛋白质相互作用信息,构建“蛋白质相互作用信息抽取系统”。该系统主要使用了Struts2框架、JSP技术、JUNG网络可视化工具等。该系统实现了信息检索、文本处理、蛋白质相互作用网络可视化等功能。通过对抽取系统的构建,可以快速检索出抽取的蛋白质相互作用信息,并且通过对蛋白质相互作用网络的可视化,可以更直观的展现蛋白质相互作用信息。