基于深度学习的中文医疗病历命名实体识别研究

来源 :中北大学 | 被引量 : 0次 | 上传用户:apenggejiayou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着国家信息化建设的不断推进,互联网技术与医疗行业的结合越来越紧密。受计算机技术的影响,医疗行业已经完成了从人工向信息化管理的转变,并且积累了大量的电子病历。命名实体识别(Named Entity Recognition,NER)是自然语言处理的一项基本任务,用来实现非结构化文本中相关实体的识别和分类,电子病历命名实体识别,是指从电子病历中提取出医疗概念的若干实体和边界,可以为后续实现医疗决策,构建医疗知识图谱奠定基础。由于医疗领域的专业特殊性,病历记录中涉及大量的患者隐私,加之记录者个人习惯导致电子病历结构化程度参差不一,为研究人员挖掘其中的价值以及推动医疗行业的智慧发展带来很大的挑战。针对这个问题,结合自然语言处理任务的特点和优势,本文提出一种基于深度学习的命名实体识别方法,对病历中的医疗实体进行提取,并结合公开的数据集验证了本文模型在命名实体识别中的可行性和有效性。本文工作内容主要包括以下三部分:(1)本文对来源于CCKS(全国知识图谱与语义计算大会)和天池大赛瑞金医院糖尿病数据集的900份原始数据进行标注预处理,对CCKS2017、2019两份数据集中的实体描述差异进行规范化处理,最终实现两份数据标注实体的统一。借助Python语言对标注方案进行实现,采用{B,I,O}三元标注对实验涉及到的医疗实体进行了标注。(2)本文采用一种基于预训练模型的BERT-BILSTM-CRF中文病历命名实体识别方法。考虑到医疗领域的命名实体识别任务缺乏大量的专业标注语料库,因此引入了预训练模型BERT进行词向量处理,大大加快了下游任务的收敛速度;同时,BERT对大规模语义的表示能力有效地解决了传统的语言模型词向量表达过于单一的问题,为后续联系上下文信息进行语义序列标注的长短期时间记忆模型,进行词义序列预测的条件随机场模型对病历实体识别的提升奠定了基础。结果表明,基于预训练机制的命名实体识别模型比传统的语言模型F1值提升了4.28%,充分说明预训练机制的引入能够有效提升模型识别效率。(3)本文基于预训练BERT-BILSTM-CRF模型基础上,通过结合迭代膨胀卷积神经网络,对该模型进行改进,提出了一种基于融合局部特征的深度学习模型BERT-BILSTM-IDCNN-CRF,通过融合文本的上下文特征和局部语言特征,有效地提升了文本序列标注的准确性,结果表明,改进的实体识别模型在原先的基础上F1值提升了1.28%,说明了膨胀卷积神经网络能够提高中文命名实体识别的效果。(4)本文采用Python语言,设计了一个中文电子病历在线识别系统,该系统以本文提出的病历识别模型为计算核心,能够对病历中的实体进行有效提取。
其他文献
<正>市场经济体制发展速度不断加快,房地产市场日渐进步。处于当前的市场经济体系当中,土地资源所扮演的角色非常重要,因此,要强化国土资源管理工作。在进行国土资源规划的过程中,要充分考虑到国土资源所具备的特点,对于房地产市场经济现状详细分析,采用科学的方法予以把控,对于所存在的问题采用有效的策略解决,运用科学的方法对房地产市场经济行为进行调控,保证房地产市场处于良性运行状态,确保房地产经济需求与土地资
期刊
通过自然渗透和压力渗透试验研究了表面张力、络合剂和渗透压力对无机水性渗透结晶型防水材料(DPS)渗透深度与渗透量的影响,结果表明,表面张力的降低、络合剂的加入以及渗透压力的增加都会增大DPS溶液的渗透深度,但DPS溶液的渗透量未变化或变化较小。
学位
城市化的快速发展对土地资源配置提出了更高要求。想要利用有限的土地资源建设高标准的房地产项目,满足城乡居民的住房需求,相关部门必须充分认识到土地资源配置与房地产经济协调发展之间的关系。基于此,本文分析了土地资源配置的重要性以及存在的问题,并且基于土地资源配置对房地产经济协调发展的影响,提出了优化土地资源配置及房地产经济模式的有效策略,旨在为相关人员提供参考。
本文回顾总结了我国植被地理学发展的历史,展望了其从传统植被地理学到功能地理学的未来研究趋势。作为研究植被地理分布规律的一门科学,植被地理学在我国经历了与社会经济发展密切相关的四个阶段:早期起步阶段,主要是新中国成立前(1920年代—1949)的植物地理学和植被地理学的零星工作;初期成长阶段,主要是新中国成立后至改革开放前(1949—1980)的传统植被地理学研究;中期迅速发展阶段,主要包括改革开放
<正>一、中央和国家机关青年干部理论武装与政治能力融合提升的重要意义习近平总书记指出,“中国共产党之所以能够历经艰难困苦而不断发展壮大,很重要的一个原因就是我们党始终重视思想建党、理论强党,使全党始终保持统一的思想、坚定的意志、协调的行动、强大的战斗力”。中国共产党在领导全国人民开展革命、建设和改革的伟大斗争中,始终注重加强党的政治建设,坚持用马克思主义基本理论和马克思主义中国化的最新理论成果武装
期刊
笔者所在区域开展高中生物虚拟实验教学实践近两年,积累了大量优秀课例。文章以其中两节示范课为例,通过高中实验教学的创新探索与研究,形成了高中虚拟实验教学模式。
为提高方钢管混凝土短柱轴压承载力的计算精度和效率,收集了国内外167个方钢管混凝土短柱的轴压试验资料;探讨了方钢管混凝土短柱在两种不同加载方式下的破坏机理,阐明了方钢管混凝土短柱轴压极限承载力不受加载方式影响的原因;引入“约束效应”系数,分析了混凝土强度、钢管强度、钢管宽厚比(B/t)对“约束效应”的影响;以极限平衡理论为基础,从方钢管混凝土短柱的理想轴压极限状态出发,推导了轴压承载力计算公式;考
在日常生活中,人们面对未来损失奖赏抉择时存在两种截然不同的决策模式,分别为"早死早超生"(FDG)和"好死不如赖活"(DG)类型。我们先前的行为研究已经证实该两组被试在选择立即损失和反应时指标上存在显著差异,表现为"早死早超生"更倾向于选择立即损失和更快的决策。然而,"早死早超生"个体特异的决策模式背后的认知和神经机制仍然不清晰。本研究将继续采用新颖的损失框架下延迟折扣范式,独立操纵立即和延迟损失