论文部分内容阅读
计算机信息技术的发展带来了海量的医疗数据。作为临床信息系统最重要的组成部分,电子病历记录了患者诊疗过程中的详细信息,包含了众多宝贵的医疗资源。电子病历中的自由文本以半结构或是无结构的形式存在,要将这些非结构化的病历数据所包含的有效信息快速提取出来,采用自然语言处理技术进行文本挖掘是必不可少的。命名实体识别是文本数据挖掘的关键技术,因此,对电子病历中的医疗实体进行识别具有重要作用。本研究提出了一种基于领域词典和条件随机场的双层标注模型。该模型通过构建一个小规模的医疗领域词典,再结合条件随机场,进行了两次不同粒度的标注,对中文电子病历中的疾病、症状、操作、药品四类医疗实体进行识别。同时对比分析了深度神经网络的识别效果。本文的主要内容包括以下部分:(1)利用统计方法从中文电子病历中获取关键词以及利用外部专业资源获取关键词这两种途径构建领域词典,并标注中文电子病历命名实体识别标注语料库。(2)基于双层标注的中文电子病历命名实体识别。将富含领域知识的领域词典与序列标注算法CRF相结合,提出了一种一次预标注-二次精确标注的双层标注模型。通过两次不同粒度的标注,将领域词典的准确性和机器学习的自动性融为一体。经过测试评估,基于小规模标注语料,该模型就能达到96.7%Macro-P、97.7%Macro-R、97.2%Macro-F1的实体识别结果。(3)双层标注模型与深度学习对医疗实体识别的比较分析。通过领域语料预训练以及对已有模型进行Fine-tuning两种方式对深度学习进行领域预处理,采用基于Bi LSTM-CRF和Transformer-CRF两种模型比较了双层标注模型和深度学习对中文电子病历命名实体识别的区别。(4)双层标注模型的其他应用。证明了双层标注模型对中文电子病历医疗实体识别具有普适的高效性。然后使用双层标注模型对医院真实儿科病历进行医疗实体识别,并从识别结果中发现了儿科常见发病特点。本文提出的中文电子病历命名实体识别的方法,表现出了优秀的识别效果,能够高效、快速地从非结构化的电子病历中自动识别出医疗实体,从而为进一步的医疗信息抽取奠定了基础。