基于机器阅读理解框架的医疗文本命名实体识别和实体关系抽取研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:compasion
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子病历作为患者临床信息的载体,记录了大量病人的临床信息。电子病历记录的临床数据可以为后续诊断、治疗以及研究提供参考和依据。由于电子病历是以自然语言形式存储的无结构或半结构文本,这极大的限制了电子病历的有效利用。所以针对临床医疗文本的信息抽取研究具有重要意义,利用自然语言处理技术从临床医疗文本中抽取有用信息是有效提高电子病历利用效率的方法。本文对临床医疗文本中的命名实体识别和实体关系抽取任务进行了研究,主要抽取文本中包含的医疗实体和实体关系。本文的工作对医疗领域的自动问答、知识图谱、信息检索等相关任务具有重要价值。在之前的方法中,序列标注模型是主要方法,存在模型缺乏外部知识和实体嵌套两个问题。本文提出的方法利用机器阅读理解中的片段抽取类型任务与信息抽取任务在任务形式上相似的特点,将命名实体识别和实体关系抽取任务转化为机器阅读理解任务进行处理。本文采用了上下游任务模式,分别对两个任务构建深度学习模型。通过机器阅读理解的框架,将与任务相关的先验知识利用人工定制问题的方式融入到模型之中,是本文的主要改进。这种方式改进了序列标注模型只能基于文本信息建模而无法利用外部知识的问题。另外,为了使模型能够处理实体嵌套问题,命名实体识别模型的答案预测模块使用边界模型解码实体提及的位置。实体关系抽取模型的嵌入模块中,加入了实体类别标签和跨句信息来增强模型的实体关系抽取能力。本文提出的模型在两个临床医疗数据集上进行实验验证。相比于序列标注模型,本文的命名实体识别模型在CANTEMIST和N2C2数据集上的F1分数分别提升了14和12个百分点;在N2C2数据集上,实体关系抽取模型相比于Bert模型的F1分数提升了7个百分点。
其他文献
赛博朋克(Cyberpunk),是Cyber(与网络有关的)与punk(朋克的)的结合,在诞生初期,作为科幻小说的新文体迅速成为当时的潮流,而在随后的发展中,赛博朋克冲破了文学领域,走向电影、动画、漫画、设计、音乐等多个艺术领域。后现代美学的特点是追求多元化,颠覆并反叛现代主义及传统美学,消解其建立起的理性与秩序,追求全新的艺术实践。赛博朋克艺术的诞生是对信息网络时代的回应,同时具有后现代美学的种
学位
学位
学位
短期交通流量预测作为智能交通系统(ITS)的核心部分,随着ITS的快速发展和部署,受到了广泛关注。由于交通道路传感器应用日益普及,交通数据的种类和数量得到了极大丰富,同时也使数据驱动的预测方法逐渐成为主流。深度学习模型作为数据驱动方法的代表性成果,由于能很好地捕捉空间关联性,在交通流量预测得到了广泛的应用。但该模型通常是黑盒模型,可解释性较差,无法解释历史交通观测数据与预测结果之间的因果关系。然而
学位
杂交在物种形成过程中起着重要作用,异源多倍化常被认为是高等植物主要的杂交物种形成途径。随着对杂交成种的深入研究和了解,人们逐渐认识到不涉及染色体数量变化的同倍体杂交同样也是杂交物种形成的重要机制之一。青藏高原及邻近地区独特的气候、地貌类型和地质历史,为同倍体杂交物种形成提供了便利和条件。目前该地被报道的同倍体杂交物种仅有四例。其中,分布于青藏高原东南地区的江孜沙棘(Hippophae gyants
学位
学位
目的掌握大学生对艾滋病知识的了解情况以及关于防艾生活技能的基本情况,为之后的艾滋病健康教育提供依据。方法对成都某高校在校大学生进行随机抽样,采用自制的问卷对被调查者进行问卷调查,并运用相关的统计软件对数据进行分析。结果调查结果显示,大学生对艾滋病知识和防艾生活技能完全了解的比例为23%,基本了解的占73%,不太了解的占4%。结论大学生对艾滋病知识和防艾生活技能总体上了解程度偏低,知识结构较为片面,
期刊
学位
报纸
学位