论文部分内容阅读
随着信息爆炸带来的严重挑战,信息抽取作为快速获取重要信息的自动化工具被应用于多个领域。在生物医学领域,随着电子病历和临床决策支持系统的发展,如何从电子病历中自动提取信息并服务于临床决策,是当下医疗信息化亟需解决的问题之一。本文致力于研究如何将信息抽取相关技术应用于文本病历中,探索针对特定内容的信息抽取方法,为完整病历的信息抽取累积经验。随着信息抽取技术在病历中的成功应用,病历结构化、案例库和临床数据仓库构建、知识获取等多种问题将迎刃而解,最终实现电子病历与临床决策的集成。
本文在借鉴现有成果的基础上,提出了一套相对完整的信息抽取方法,实现了既往史中病症相关信息的抽取。整个抽取过程分为命名实体识别、模板抽取和填充两个阶段。在命名实体识别阶段,通过比较现有的实体识别方法和模型,采用了“词典和规则相结合”以及“词典和机器学习相结合”两种方法对中文病历中最常见的几类实体进行智能识别以弥补单一识别方法所固有的缺陷,取得了比较理想的识别效果。在机器学习的方法中,本文通过实验逐步分析语言符号、词性、构词特征等多种特征对实体识别的影响,提出了中文病历环境下机器学习的特征选择和模板设计的一些基本规则。在模板抽取和填充阶段,依据词类的语义标注进行浅层句法分析,并以此来获取常见的句型模式和抽取规则。最后,通过模式匹配的方法来抽取实体的属性和实体间的关系,并用统一的形式进行表达,最终形成结构化的数据。在抽取实验中,准确率、召回率、F值分别达到了93.7%、87.9%、90.7%,效果比较理想。