论文部分内容阅读
电子病历文本中的时间信息,对于标识患者从入院到出院期间不同阶段的病情变化,有着不可替代的作用,因而时间信息抽取在医学领域中受到越来越多的关注。时间实体抽取难点在于:电子病历中存在基于事件的时间,由于这类时间短语太长,很难将其准确识别出来从而导致边界错误。另外,在抽取时间关系的过程中,虽然事件之间存在时序关系,但当句内不存在时间词时,容易识别出错误的时间关系;同时,由于句间事件之间跨度远,若没有显式的时间词出现,很难确定句间事件-事件的时间关系。 在时间实体抽取方面,本文将中文电子病历文本中的时间分为独立时间和基于事件的时间,并针对这两类时间分别提出了基于bootstrapping的识别算法和基于条件随机场的识别算法。其中,为了解决基于事件的时间短语太长而不能准确定位其边界的问题,引入知识库作为词典特征,有效提高了利用条件随机场进行识别的准确率、召回率和F1值。 在关系抽取方面,本文把中文电子病历文本中的时间关系识别转化成实体对分类问题:针对句内事件-事件和句内事件-时间这两类时间关系的识别,分别制定了高准确率的启发式规则,并设计了多种语言特征训练不同的分类器;针对句间事件-事件的时间关系的识别,设计了基本特征、短语句法特征和其他特征,训练分类器缓解句间时间关系的识别错误。