论文部分内容阅读
生物医学文献中包含了大量表示推测或不确定性的模糊限制语。由模糊限制语所引导的模糊限制信息并非确定的信息,在文本信息抽取时,应区别于事实信息。模糊限制语所引导的模糊限制信息通常不是整句,往往是一个从句或者短语。因此在识别模糊限制语的同时,对其控制的范围进行检测也同样重要。模糊限制信息的检测是将自然语言中的事实与不确定性信息区分开来,这对于事实信息的挖掘有重要的意义。本文主要研究生物医学英文文献中模糊限制语及其范围的检测问题。针对模糊限制语的识别问题,提出基于多特征条件随机场模型(CRFs)的模糊限制语识别方法。首先,将训练语料中出现的模糊限制语及其在WordNet中的同义词提取出来组成关键词词典,并利用基于关键词词典的方法进行模糊限制语的识别;之后,将基于关键词词典的识别结果作为特征引入到CRFs模型中,连同其他特征一起进行模糊限制语的识别。在CoNLL 2010提供的国际公开测评语料上进行了实验,模糊限制语识别的召回率达到85.44%,F1测评值达到86.32%。针对模糊限制语范围的检测问题,提出规则与统计相结合的模糊限制语范围检测方法。首先,利用句法结构和模糊限制语的词性,建立相应的规则进行模糊限制语范围的检测;其次,将基于规则的模糊限制语范围检测结果作为特征引入到统计模型CRFs中,连同其他特征一起训练;最后,利用后处理算法得到连续的模糊限制语的范围。该方法在CoNLL 2010提供的国际公开测评语料上取得了57.47%的F1测评值。实验结果表明基于CRFs的模糊限制语范围检测方法比基于规则的方法效果好,将其与规则系统结合后其检测精度有较大提高。本文的研究成果可以应用到许多自然语言处理任务中,如基因命名实体抽取,问答系统,生物文本信息抽取等。