融合注意力机制的中文病历实体及关系抽取技术研究

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:ggyy2000_2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面向中文病历文本的实体及关系抽取任务是自然语言处理领域的研究热点,其目标是从医学文本中高效地、自动化地抽取出医学实体及关系。虽然当前基于深度学习的方法在信息抽取研究领域得到广泛应用,但针对中文医学信息抽取的研究工作仍然面临一些挑战:(1)中文医疗信息抽取数据集匮乏;(2)针对医疗这一特殊领域,病历文本包含许多晦涩医学术语,模型对病历中字和词特征的抽取仍然有限;(3)对于中文医学实体和关系抽取任务,现有的模型仍面临着识别重叠实体三元组以及整个医学实体边界和检测多类型医学概念关系的挑战。针对以上问题,利用神经网络模型对中文医学实体及关系抽取任务进行研究,主要研究工作如下:(1)针对中文医学实体识别任务,提出Well-Behaved Transformer模型。采用高性能的编码策略,分别对中文病历文本中的字信息和与该字相对应的所有词信息进行编码,从而减轻分词错误对获取词边界信息的影响。解决了传统字和词混合模型无法利用GPU并行计算的问题,提升了模型的训练速度。在CCKS 2019数据集、ALCD数据集以及人工标注的CEMR数据集上的F1值分别为84.98%、84.22%、83.29%。实验结果表明,该模型可以提高中文医学实体识别的性能。(2)针对中文句内医学实体及关系联合抽取任务,提出特定关系注意力指导的图神经网络模型。利用注意力指导的图神经网络感知句子中每个关系间的特征进而抽取句子中的实体关系,以关系指导实体识别。模型关注了各关系间的相关性,减少了实体识别中冗余关系带来的噪声,解决了识别重叠实体三元组的问题。在CMe IE数据集和人工标注的CEMR-RE数据集上的F1值分别为66.12%和75.30%。实验结果表明,该模型可提高中文句内医学实体及关系联合抽取的性能。(3)针对中文文档级医学实体关系抽取任务,提出Cross-Transformer和特定关系的神经网络模型。使用Cross-Transformer编码实体-句子结构依赖和文档中的字嵌入,进而构建实体-实体结构依赖和预测实体间的所有关系,通过特定关系实体解码器执行特定关系实体序列标注,通过该方法充分捕获局部细粒度语义信息。在人工标注的CEMR-DRE数据集上的实验结果表明,该模型的F1值为62.84%,可以提高中文文档级医学实体关系抽取的性能。
其他文献
城市承担着满足人民日益增长的美好生活期盼等重大使命。国内外从20世纪80年代就开始全面系统研究城市竞争力。我国目前城市格局是北京、上海、深圳处于第一梯队,广州、杭州、重庆、成都等城市处于第二梯队。基于城市世界500强企业发展情况分析印证了我国城市基本格局,并且发现深圳、杭州表现卓越。我国城市发展中应深入借鉴深圳、杭州营造创新氛围、把握产业升级方向和市场化发展理念等方面的成功经验,在未来激烈竞争中胜
期刊
当今写实性工笔人物画蓬勃发展,在主题内容、表现语言,以及艺术思考上,较之传统的工笔人物画都有了很大的变化与进步。作品面貌更趋现实主义,题材则更趋多元化。在技法上,因时代风貌发生了翻天覆地的变化,传统工笔画的渲染技法已经不能完全满足绘画创作的需要。同时,在西方写实观念的影响下当代工笔人物画创作尤为重视肌理的表达,至今,肌理制作已成为工笔人物画中不可或缺的重要组成部分。本文旨在探索当代写实性工笔人物画
学位
电子病历中的医疗事件及其时序关系在药物辅助研发、在线智能问诊、医疗知识图谱构建等各种智慧医疗应用中具有重要的价值,使得相关技术研究成为当前自然语言处理与医疗信息化交叉领域中的热点问题。针对基于电子病历的医疗事件与事件时序关系识别问题,现有研究已经提出了不少方法。然而,病历数据中存在大量晦涩的专业术语,所包含的医疗事件及时序关系在不同类别之间不平衡,人工标注的医疗事件时序关系训练语料稀疏现象严重,这
学位
作为一种被广泛使用的数据挖掘技术,聚类因自身具有无监督学习的优势,近些年来受到了各个领域的青睐,诸如遥感图像分类、目标检测、文本聚类等。其本质是给定大量数据,将相似度高的数据归入同一组,相似度低的数据则归入不同组。然而,现实世界中的大量真实数据之间总是存在部分重叠,导致数据很难被正确划分,因此,作为经典的软聚类算法,模糊C均值算法(Fuzzy C-Means,FCM)通过使用隶属度进行聚类,避免了
学位
大学校园是教师科研工作、学生学习思考的主要场所,是时代社会前沿文化的汇集之地,并担任文化传播的主要任务,大学校园对社会经济的进步具有推动作用。进入新世纪以来,规模不断扩大的大学校园出现了许多新问题,校园与城市空间规划日益凸显的矛盾,对现有的校园建设模式提出了新的要求。随着建设高潮的消退,高校的高校校园发展开始进入了异地建新校区与既有校区改造更新并重的新阶段。目前我国绝大多数大学校园均采用完全封闭式
学位
癫痫是一种间歇性发作的慢性神经系统疾病,严重损害着人们的身心健康,对癫痫发作预测是十分必要且有意义的。脑电信号的数字化检测是诊断癫痫病的必要方法,为了能更精确地预测出癫痫发作,本文通过构建适合脑电信号的深度神经网络模型,进行癫痫脑电信号的识别和预测,主要研究如下:为了提高癫痫脑电信号的识别精度,提出一种多尺度卷积特征融合方法。利用多尺度卷积神经网络提取数据的多尺度空间特征,长短时记忆网络提取数据中
学位
<正>最新《财富》世界500强公布,中国共有145家(包括台湾9家)公司上榜,美国124家公司上榜。到今年中国已经连续三年位居世界第一位,其中营收占500强总营收的31%,首次超过美国。从1995年公布世界500强榜单至今27年,中国由3家到145家,实现了历史性跨越。与此同时,中国企业在世界500强中的资产地位也实现了攀升,2022年《财富》世界500强的平均营收达到755.5亿美元,总资产32
期刊
高二适在近现代书坛以草书著称,自封“草圣”,是“金陵四家”之一。他精研篆、隶、楷、行、草各书体,这为其梳理草书的形成与发展脉络提供了实践基础,高氏提出“引章入草”的书学观念,并融楷书、行书、章草、今草于一炉。又因善用狼毫,其晚年书风劲健,独标一帜。高二适出生书香门第,成长于民国时期,生性“狂狷”,为人真挚,一辈子嗜书如命,这与其独特书风的形成有密切关系。1969年对高氏而言是人生亦是其书途的转折点
学位
近年来,第五代(Fifth Generation,5G)移动通信网络的大规模商业部署,智能设备和新兴物联网(Internet of Things,Io T)应用的激增,导致频谱稀缺问题变得越来越严重。无人机(Unmanned Aerial Vehicle,UAV)协作的认知无线电网络(Cognitive Radio Network,CRN)缓解了有限的频谱资源和不断增长的数据流量之间的矛盾,并有效
学位
五代北宋全景山水画在中国绘画甚至是文化发展过程中具有较大的作用与价值。本文通过文献考据法、比较研究法、理论联系实践等研究方法,探讨五代北宋全景山水画构图的起源与内涵特征,以及运用方法。笔者的研究运用过程主要分为四个阶段:第一阶段为课题前期调研。笔者收集查阅五代北宋全景山水画构图相关资料进行整合与文献综述,了解此课题美学、历史、哲学等思想角度和画史画论的研究现状,确定本文研究思路和创新点;第二阶段为
学位