基于SVM和链接分析的蛋白质关系抽取系统

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:lin0929
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物医学文献数量的急剧增长,各种各样的生物医学信息出现在生物医学研究者面前。这给生物医学研究者带来很沉重的负担,使他们很难迅速地从这些文献中找到需要的信息。为了提高他们的工作效率,迫切地需要一些自动化的工具帮助他们在海量生物医学文献中迅速地找到需要的信息。生物医学文献中蛋白质(基因)相互作用关系抽取的研究正是在这种背景下产生的。此外,从生物医学文献中抽取蛋白质(基因)相互作用关系也具有很高的应用价值,对蛋白质知识网络的建立、蛋白质关系的预测、新药的研制等均具有重要的意义。本文构建了一个生物医学文献中的蛋白质相互作用关系抽取系统。该系统使用基于支持向量机(SVM)和链接分析(Link parse)的方法抽取蛋白质(基因)交互作用关系。系统首先通过指代消解替换生物医学文献中的第三人称代词,然后使用条件随机域模型对生物医学文献进行实体识别,通过链接语法分析器分析文献中句子的链接路径,最后通过四大类特征的提取,包括:词项特征、关键词特征、链接特征以及词对特征,利用SVM分类器抽取蛋白质(基因)相互作用关系。本文首先介绍了蛋白质相互作用关系抽取的相关知识和研究概况,然后重点介绍了本文的实验系统所使用的核心方法——统计学习理论与支持向量机(SVM),接下来对系统使用的其他方法进行了详细描述,包括指代消解、命名实体识别、链接语法与链接语法分析器以及链接路径提取、关系抽取的特征选取。本文的最后给出了系统实现与性能评估。
其他文献
无线传感器网络由大量的能量、计算能力、存储能力及通信能力受限的传感器节点组成。至今,由于无线传感器网络在民用及军事领域的广泛应用而备受关注。通常情况下,无线传感器
在经济全球化的今天,任何一家具有相当规模的现代企业将越来越少地单一使用某一家软件提供商的产品和解决方案。一是更换整个系统(包括ERP/CRM/SCM等)成本的考虑;二是基于公司自
P2P网络以端到端的方式进行节点互联和文件共享,解决了传统Client-to-Server模式的单点失效和性能瓶颈问题,近年来在文件共享、多媒体传输、分布式计算、协同工作等领域获得
计算机系统中发现的安全漏洞的数量呈爆炸性的方式增长。目前,为了了解、处理这些安全事件,往往通过脆弱性库来了解脆弱性信息,使用工具对系统中存在的脆弱性进行探测和处理
定义和描述业务过程的工作流模型,是企业应用工作流管理技术的关键。办公自动化系统、企业MIS系统、客户关系管理(CRM)系统等都涉及到了企业业务过程的定义,这些业务过程如果完
Web程序可以动态生成网页,这使得Web应用充满不确定性。当用户向服务器提交一个动态请求时,Web应用根据服务器当前状态和用户提交的信息来生成网页,所以,对用户提交的同一个
当前,电信运营业务在中国从新兴走向成熟,电信企业为了满足越来越多的来自客户对于电信业务的需求,电信支撑系统从规模到复杂性都逐步扩大,伴随着对于收入保障的要求也越来越
图像变形算法很久前就被广泛关注,并且有过很多相关研究。图像变形技术在电影动画制作、图像编辑、用户接口、动作表情控制等多个领域有着广泛的应用。本论文结合项目需求为完
能够支持嵌入式系统资源复用、缩短嵌入式系统开发周期、提高嵌入式系统开发效率的嵌入式系统开发平台是嵌入式产品开发的有效工具。但嵌入式系统产品以应用为中心,不同的应用
本文首先对3G业务接入的现状以及存在的技术瓶颈进行了简单的描述,以此为背景引出综合业务接入网关(ISAG),紧接着简单介绍了ISAG应用到的关键技术——Parlay X WebService。