基于深度学习的电子病历实体识别研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:yongshuai520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着医学信息化建设的快速发展,电子病历已成为医院诊疗的重要依据,如何对有价值的医学信息进行精确识别已成为研究热点。在进行实体识别时,传统识别方法特征利用相对简单,没有充分挖掘实体相关特征,同时也无法学习到深度双向的全文语义信息。因此该文针对以上问题采用深度学习识别算法,进行了以下研究。首先,针对实体内部结构信息未被充分挖掘,造成形态层次特征丢失的情况,构建融合字及笔画特征的双向长短期记忆网络(Long Short Term Memory,LSTM)进行实体特征提取。通过n元笔顺训练层提取每个字符的笔顺特征,使用大规模医学语料训练字向量特征,最后拼接两个特征一起通过双向LSTM网络进行识别标注。实验表明,融合字及n元笔顺的增强网络各项性能均优于典型双向LSTM网络。其次,提出了基于医学词增强的联合神经网络识别模型,来解决外部分词信息丢失的情况。使用长短时记忆网络及一维卷积网络捕获字符级特征,通过自构建大规模医学词典来匹配以输入字符结尾的医学词,最后将匹配的词级信息加入词增强网络中进行增强识别。实验结果表明,该方法加快了模型的收敛速度,提升了病历文本的性能表现。最后,针对医学训练语料缺乏,传统网络无法学习到深度双向的全文语义信息的问题,设计了一种基于双向编码表示(Bidirectional Encoder Representation from Transformers,BERT)的门控神经网络识别模型。该模型采用基于全词掩码的中文预训练模型,加强了词语的全文语义联系,利用了大量无标注医学文本,结合双向门控循环神经网络捕捉特征前后联系的优势,对语料进行上下文语义抽取,最后通过条件随机场(Conditional Random Field,CRF)层解决标签偏置问题。实验表明该模型降低了语料数据维度,节省了网络计算资源,提高了病历识别的准确率。
其他文献
全球能源短缺和环境污染的影响使得电动汽车正在逐渐地代替燃油汽车。随着电动汽车的普及,其大规模化地接入电网充电即将成为一种趋势,将会对城市电网的正常运行造成巨大的挑战。由于大量电动汽车充电会对电网产生较大影响,因此对电动汽车的日负荷进行预测和优化是必要的。为此,本文对相关问题进行了研究,以实现对电动汽车日负荷预测及其峰谷差优化。首先,针对电动汽车日负荷预测问题,本文提出了一种基于双链马尔科夫和决策树
制造业有着夯实经济基础的重要作用,国家对制造业的重视程度越来越高,传统车间生产已经不能满足生产要求,因此建设智能工厂是制造业未来发展的趋势。在建设智能工厂过程中,明确需求并给出合理科学的方法是必要可行的。本文从智能工厂的需求出发,建立了智能工厂生产架构,同时对调度的方法做了详细阐释。首先,指出了传统企业在建设智能工厂过程中出现的问题,对智能工厂的需求进行了分析,给出了基于需求的智能工厂生产解决方案
近年来,多智能体分布式一致性控制在移动机器人、无人机编队、网络化控制等方面有了广泛了发展,已经逐渐成为控制学科中的研讨热点。然而,对于其中最基本的一致性问题还存在着很多内容值得讨论,例如在实际生活中,通信往往通过共享网络执行,这意味着网络通信带宽和智能体的计算资源无法避免地受到限制。本文从这一点出发,通过结合动态事件触发的控制机制,对一般线性多智能体系统展开研究,在保证系统稳定性和一致性的前提下,
三维点云数据任务在计算机视觉以及机器人领域有着广泛的应用,随着深度学习技术在智慧出行、智能家居和智能园区等领域的发展为点云的分类和分割领域提供了新的可能性。然而,由于点云数据本身的不规则性、无序性、稀疏性等固有属性的存在,使得现有的三维点云深度学习架构仍无法避免特征信息提取能力不足、网络框架泛化能力差等问题。本课题以局部采样算法为基础,对三维点云数据的方向编码卷积设计、深度学习分类、分割网络结构设
新冠肺炎是一种传染性很强的疾病。自2019年12月以来,在全球范围内已经造成了两百多万人死亡,给全球人民带来了巨大的伤害。所以及时准确的识别新冠肺炎患者,不仅可以对患者进行及时的治疗,还可以有效防止疫情的扩散。新冠肺炎现阶段主要的检测手段是核酸检测,但是核酸检测的假阴性率太高,而且需要多次检测才能确诊。胸部X光片作为普通肺炎判断的标准,同时也可以成为新冠肺炎诊断的依据。由于新冠肺炎和普通肺炎的医疗
遥操作系统作为能够代替人类在核事故救援、空间探测、远程医疗以及农业等多个领域完成多种复杂操作的远程操作系统,近年来已经得到广泛的发展。随着功能的不断完善,遥操作系统的应用场景更为丰富,这也使得人们对遥操作系统的控制性能有了更高的要求。在实际应用中,遥操作系统主-从系统之间的网络通讯存在不可避免的通讯时延、遥操作系统自身较强的非线性特性以及所处环境的复杂性导致系统的控制性能极易受到通讯时延、模型参数
随着科学技术的高速发展和人类社会的不断进步,海洋逐渐成为各个国家争相研究的对象。我国是海洋大国,未来也必将会是海洋强国,党和政府都高度重视对海洋的研究和开发。水下无线传感器网络是近年来对海洋进行数据采集和监测的重要工具,具有很高的研究意义和研究价值。网络中有许多值得研究的方向,本文主要就水声信道质量预测、动态节点移动策略和静态节点中继部署三个方面进行了深入研究,主要研究内容为:(1)水下无线传感器
水泥工业是我国国民经济发展的支柱产业,水泥烧成系统是水泥生产的三大环节之一,对水泥烧成系统生产过程进行优化,对降低生产过程成本,提高水泥产品质量具有重要意义。目前,水泥烧成系统生产过程的优化主要依赖于操作员的经验,无法保证优化操作的合理性,同时在生产过程会由于操作的不合理性造成大量的能源消耗。本课题结合水泥烧成系统生产过程优化问题,对卷积神经网络(Convolution Neural Networ
睡眠是人类基本的活动,高质量的睡眠状态有利于人体的身体健康。随着生活和工作压力的加大,睡眠相关的疾病在当今社会日益突出,威胁着人们的身体健康和日常生活。目前通过人工标记睡眠分期需要人力和时间成本,效率低且主观性强。该文针对目前睡眠分期的类别不平衡、长时间依赖关系等问题出发,利用深度学习实现自动睡眠分期,在公开的数据集睡眠记录(Sleep-European Data Format,Sleep-EDF
随着不可再生能源消耗量的逐年增加,以及环境污染问题的日益加重,各个国家开始将目光转向低碳化的能源。由此,基于分布式能源的微电网应运而生,但微电网系统的控制策略及在不同工作模式间的切换稳定性仍存在很多待解决的问题。因此,本文针对相关问题进行研究,以改善微电网系统控制策略的有效性,提高运行稳定性。首先,对微电网的控制结构、运行模式、控制策略与常用分布式电源的数学模型进行了分析介绍,为后文微电网模型的建