论文部分内容阅读
生物命名实体识别是生物医学文本挖掘的关键步骤,只有正确地识别出生物命名实体,才能有效地完成基因(蛋白质)标准化和蛋白质-蛋白质相互关系抽取等更加复杂的工作。然而,由于生物命名实体命名的不规则性和歧义性,生物命名实体识别一直是一项富有挑战性的任务。本文主要研究生物医学英文文献中命名实体的识别问题,实验中采用的语料包括JNLPBA2004和BioCreAtIvE 2 GM两种。本文的主要贡献包括以下两点:(1)提出了一种基于条件随机域(Conditional Random Fields,CRF)的两阶段生物命名实体识别方法。该方法将JNLPBA2004任务分为识别和分类两个子任务,并将这两个子任务分两阶段来完成:在第一阶段,即识别阶段,使用CRF模型将文本中所有潜在的生物命名实体全部标记出来,但是不区分类别;在第二阶段,即分类阶段,用另一个CRF模型对已识别的实体进行分类。为进一步提高系统的识别性能,本文还在分类阶段之前加入了四个后续处理算法。实验结果表明,采用本文提出的方法进行生物命名实体识别不仅能有效缩短模型的训练时间,还能进一步提高系统的识别性能,该方法在JNLPBA2004语料上取得了74.47%的F1评测值,比JNLPBA2004竞赛的第一名高1.92%。(2)针对BioCreAtIvE 2 GM任务,本文提出了一种基于多模型整合的生物命名实体识别方法。该方法首先采用不同的机器学习算法和特征集训练了六个有差别的机器学习模型,然后使用简单集合运算(如并集、交集等)和投票两种策略将它们的识别结果整合到一起。实验结果表明,整合多个模型的识别结果有助于提高系统的识别性能,本文提出的方法在BioCreAtIvE 2 GM语料上取得了87.89%的F1评测值,比BioCreative2 GM竞赛的第一名高0.68%。