生物医学文献中命名实体的识别

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:xiaollxiao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物命名实体识别是生物医学文本挖掘的关键步骤,只有正确地识别出生物命名实体,才能有效地完成基因(蛋白质)标准化和蛋白质-蛋白质相互关系抽取等更加复杂的工作。然而,由于生物命名实体命名的不规则性和歧义性,生物命名实体识别一直是一项富有挑战性的任务。本文主要研究生物医学英文文献中命名实体的识别问题,实验中采用的语料包括JNLPBA2004和BioCreAtIvE 2 GM两种。本文的主要贡献包括以下两点:(1)提出了一种基于条件随机域(Conditional Random Fields,CRF)的两阶段生物命名实体识别方法。该方法将JNLPBA2004任务分为识别和分类两个子任务,并将这两个子任务分两阶段来完成:在第一阶段,即识别阶段,使用CRF模型将文本中所有潜在的生物命名实体全部标记出来,但是不区分类别;在第二阶段,即分类阶段,用另一个CRF模型对已识别的实体进行分类。为进一步提高系统的识别性能,本文还在分类阶段之前加入了四个后续处理算法。实验结果表明,采用本文提出的方法进行生物命名实体识别不仅能有效缩短模型的训练时间,还能进一步提高系统的识别性能,该方法在JNLPBA2004语料上取得了74.47%的F1评测值,比JNLPBA2004竞赛的第一名高1.92%。(2)针对BioCreAtIvE 2 GM任务,本文提出了一种基于多模型整合的生物命名实体识别方法。该方法首先采用不同的机器学习算法和特征集训练了六个有差别的机器学习模型,然后使用简单集合运算(如并集、交集等)和投票两种策略将它们的识别结果整合到一起。实验结果表明,整合多个模型的识别结果有助于提高系统的识别性能,本文提出的方法在BioCreAtIvE 2 GM语料上取得了87.89%的F1评测值,比BioCreative2 GM竞赛的第一名高0.68%。
其他文献
近年来,基于构件的软件开发(CBSD)技术发展迅速,越来越受到业界的欢迎。在开发一个构件化软件时,只需把一个个现成的构件进行组装即可完成一个应用系统。CBSD能够取得成功的
隐写分析技术是信息隐藏技术的逆向技术,主要目的在于检测、提取或破坏可疑载体内藏有的秘密信息。由于网络语音流具有较大的信息隐藏容量和较高的实时性,因此网络语音流上的
互联网的出现和快速普及使得信息的获取和利用更加便捷,而信息无障碍建设使得残障人士特别是视障人士也能充分利用互联网上的资源与服务,真正实现信息社会的无差别接入。  
软件复用是指重复利用现有系统中具有相同或相近的软件元素来开发新系统的过程,它极大的提高了软件开发效率和软件质量。作为解决软件危机的有效途径,软件复用技术迅速发展,
分布式实时嵌入式系统(DRES)的安全性是系统的关键环节,而信息的传输是分布式实时嵌入式系统安全中的一个薄弱环节。随着计算机软硬件的迅速发展与网络的广泛应用,分布式实时
学位
随着计算机及网络技术的不断发展,流媒体凭借边下载边播放等优点而得到越来越充分的应用。P2P技术应用于流媒体经过近几年来的研究已不断地走向成熟,其中P2P流媒体直播系统在
随着互联网中信息爆炸式的增长,网络存储技术越来越收到人们的关注和重视。而这种网络存储技术面临的一个主要的问题就是怎样充分利用互联网中的这些曾被忽视的闲散PC资源形
近些年来,背景建模算法在计算机视觉领域得到了广泛的应用,如视频监控、目标跟踪、人体行为识别、车牌检测等。与此同时,背景建模算法的应用环境也发生了较大变化,从静止的室
随着科技发展,机器人产业的应用和需求与日俱增,人类生活各领域如工业、农业、教育、国防等逐渐出现机器人的影子。因此,机器人学是一个重要且极具广泛应用价值的研究课题。
XML以其扩展性、结构性、平台独立性和自描述性等诸多特性,越来越多的信息采用XML格式进行存储和交换,XML已经成为Web上信息表示和交换的标准。大量XML数据的出现给XML的存储和