基于双层标注的中文电子病历命名实体识别

来源 :南京邮电大学 | 被引量 : 1次 | 上传用户:deathzdw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机信息技术的发展带来了海量的医疗数据。作为临床信息系统最重要的组成部分,电子病历记录了患者诊疗过程中的详细信息,包含了众多宝贵的医疗资源。电子病历中的自由文本以半结构或是无结构的形式存在,要将这些非结构化的病历数据所包含的有效信息快速提取出来,采用自然语言处理技术进行文本挖掘是必不可少的。命名实体识别是文本数据挖掘的关键技术,因此,对电子病历中的医疗实体进行识别具有重要作用。本研究提出了一种基于领域词典和条件随机场的双层标注模型。该模型通过构建一个小规模的医疗领域词典,再结合条件随机场,进行了两次不同粒度的标注,对中文电子病历中的疾病、症状、操作、药品四类医疗实体进行识别。同时对比分析了深度神经网络的识别效果。本文的主要内容包括以下部分:(1)利用统计方法从中文电子病历中获取关键词以及利用外部专业资源获取关键词这两种途径构建领域词典,并标注中文电子病历命名实体识别标注语料库。(2)基于双层标注的中文电子病历命名实体识别。将富含领域知识的领域词典与序列标注算法CRF相结合,提出了一种一次预标注-二次精确标注的双层标注模型。通过两次不同粒度的标注,将领域词典的准确性和机器学习的自动性融为一体。经过测试评估,基于小规模标注语料,该模型就能达到96.7%Macro-P、97.7%Macro-R、97.2%Macro-F1的实体识别结果。(3)双层标注模型与深度学习对医疗实体识别的比较分析。通过领域语料预训练以及对已有模型进行Fine-tuning两种方式对深度学习进行领域预处理,采用基于Bi LSTM-CRF和Transformer-CRF两种模型比较了双层标注模型和深度学习对中文电子病历命名实体识别的区别。(4)双层标注模型的其他应用。证明了双层标注模型对中文电子病历医疗实体识别具有普适的高效性。然后使用双层标注模型对医院真实儿科病历进行医疗实体识别,并从识别结果中发现了儿科常见发病特点。本文提出的中文电子病历命名实体识别的方法,表现出了优秀的识别效果,能够高效、快速地从非结构化的电子病历中自动识别出医疗实体,从而为进一步的医疗信息抽取奠定了基础。
其他文献
为了满足版本的正确稳定升级,满足嵌入式系统高可靠性的要求,要求在系统存储多个BOOT引导程序并能实现BOOT版本的在线升级。本文论述了一种基于嵌入式系统的支持远程在线升级
<正>近年来,我国建设工程技术复杂程度提高,工程质量安全的要求也在相应提高,建筑施工脚手架及模板工程支撑体系的作用也越来越凸现,但由于在模板脚手架产品质量、安全标准制
<正>"神秘是我们所能够体验的最美丽的事。它是所有真正的艺术与所有科学的源头。对这样的情感感到陌生,且不愿驻足惊叹,也不愿去全神贯注地敬畏,这样的人就好像是死了:他的
期刊
针对提高玉米收获质量和降低收获成本制约玉米收获机械化技术发展的瓶颈,结合激振摘穗技术可实现低损高效和低功耗收获的优势,采用理论分析与试验相结合的方法,对激振波结构
距离“通知—删除”规则正式入驻中国法律体系已经过去14年,此规则引入的初衷是为了减轻技术提供者的平台责任,保证互联网领域的蓬勃发展。此去经年,可以说该规则在互联网发
随着城市建设规模的日趋增大,交通日益繁忙,各种交通工具大量增加,为此各单位的汽车库越建越多,越建越大,而以往车库均为单层平房,占地面积也越来越大,使得本来紧张的城市用
随着时代的不断发展,网络的体现方式也逐渐多元化.新型媒体的发展形式以及遍布范围越来越广,从而对传统媒体发展造成了一定的冲击。因此,身为媒体工作者适当的进行转型、跟进
小儿多发性浸润性脂肪瘤一例韦福康,罗启成,刘敏,黄鲁刚患儿:男,3岁5个月。因出生后8个月发现脐左侧腹壁有一乒乓球大小的肿块,质软无痛感而未予重视,近年来该肿块渐进性向胸、腹及下肢
基于议题偏好修改的Agent劝说能更好提高Agent在动态环境下的谈判效率,保证谈判效果.针对该模式,结合形式逻辑理论,提出了相应的劝说机制,包括相应的表述模型和支持该模型的
党的十九大是一次具有划时代、里程碑意义的历史性盛会。党的十九大对中国教育有"五个意味着",作为教育工作者要做到"五个要办",即意味着中国教育迎来了一个新时代,我们要办