基于MapReduce的蛋白质相互作用信息抽取系统的设计与实现

来源 :西北农林科技大学 | 被引量 : 0次 | 上传用户:aabbccdd654321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物医学技术的飞速发展,相关文献的数量也在快速增长。从这些快速增长的生物医学文献中,提取出生物医学信息,成为目前文本挖掘研究的热点。蛋白质在生命活动中发挥着重要的作用,利用文本挖掘技术能够快速在生物医学文献中提取出具有相互作用关系的蛋白质,可以为生物医学专家的研究提供帮助。近年来大数据技术的发展为生物医学信息的提取提供了一种新的方法和思路。本研究基于特征向量的方法,实现了基于MapReduce的蛋白质相互作用信息抽取,具体过程如下:首先,构建蛋白质相互作用信息抽取系统。在本研究中,利用基于机器学习方法,对训练语料进行预处理,预处理的主要工作为:Tokenize处理、词性标注、浅层句法分析等。利用预处理的语料进行特征提取工作,提取出动词特征、词汇及上下文特征、基本短语块特征、短语特征等特征。利用这些特征形成特征向量,并采用LIBSVM测试抽取系统性能。实验结果表明,抽取系统性能良好。然后,在MapReduce上实现蛋白质相互作用信息的抽取。抽取的工作流程主要分为Map阶段和Reduce阶段。Map阶段主要工作为:对测试语料进行蛋白质命名实体识别、文本预处理、特征提取、特征向量构造等处理。Map阶段输出的Key值为蛋白质关系实例,Value值为关系实例对应的特征向量。Reduce阶段主要工作为:特征向量形式转换、加载训练好的分类模型、利用分类模型进行分类判断等。Reduce阶段输出的Key值为Reduce阶段输入的Key值,Value值为空值。实验结果表明,对于大量生物医学文本,在MapReduce上抽取蛋白质相互作用信息比在单机上抽取,可以节省大量处理时间。最后,利用在MapReduce上抽取的蛋白质相互作用信息,构建“蛋白质相互作用信息抽取系统”。该系统主要使用了Struts2框架、JSP技术、JUNG网络可视化工具等。该系统实现了信息检索、文本处理、蛋白质相互作用网络可视化等功能。通过对抽取系统的构建,可以快速检索出抽取的蛋白质相互作用信息,并且通过对蛋白质相互作用网络的可视化,可以更直观的展现蛋白质相互作用信息。
其他文献
<正>最近,智能电网再一次受到业界的高度关注。此次关注的焦点,是7月6日国家发改委、能源局共同发布的《关于促进智能电网发展的指导意见》(以下简称《意见》)。这是首份国家
财务管理是提高财务工作水平的重要策略。本文分析了新会计制度下财务管理存在的不足,根据新会计制度的要求,就加强财务管理提出创新模式。其中包括增强财务人员学习能力、财
焦化行业污染问题日益凸显。邯钢邯宝焦化厂针对焦炉环保设备进行了优化和升级,包括升级改造装煤除尘器及管网、推焦车及拦焦车环保设施改造等,以达到焦炉清洁生产,满足当前
近年来,中俄全面战略协作伙伴关系不断深化,各领域务实合作不断加强,促进了黑龙江省对俄人文合作的不断提升。黑龙江省对俄人文合作是我国对俄人文合作的领头羊,对俄人文合作
激光器技术在最近几年发展迅猛,各种规格的激光源是各种军民两用光电设备的关键部件之一。在定向能激光武器中,不断进步的激光器技术大大提高了系统的作战效果,如提高了作战
社区银行是我国金融业未来的发展方向之一,文章对国外对社区银行的研究进行了梳理,从社区银行与关系型贷款研究、社区银行的竞争力研究、社区银行的风险管理、社区银行与宏观
<正>近年来,区块链技术成为各方关注的焦点,越来越多的行业尝试利用区块链技术构建交易和业务的互信框架,应用前景十分广阔。电子认证服务主要基于权威的第三方构建网络信任,
基于2003-2010年上市公司的数据,采用应计利润法计量盈余管理水平,比较国有公司和非国有公司盈余管理水平上的差异,同时对新会计准则实施前后上市公司的盈余管理水平进行比较
自然生态环境是城市生态系统赖以生存和发展的重要物质基础,生态足迹作为生态环境承栽状态测度的指标,受到社会、经济、人口等多种因素的影响,表现出时空动态性和不确定性特征。