面向生物医学文本的实体识别和标准化研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户：antony86

【摘要】

：

【作者】

：

孙曰君

【机构】

：

大连理工大学

【出处】

：

大连理工大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着医疗信息化建设和生物科技的迅猛发展,生物医学文献和电子病历的数量呈现出指数级增长的态势,蕴含在这些生物医学文本中的信息成为生物医学研究的宝贵资源。但由于生物医学文本大都是以自然语言描述的非结构化形式存在,计算机无法直接对其进行有效的分析和利用。因此,通过生物医学文本挖掘技术对生物医学文本进行有价值信息的提取和利用,将对生物医疗技术的进步和医疗健康领域信息化建设的发展产生深远和积极的影响。生物医学命名实体识别和标准化是生物医学文本挖掘的基础任务之一,旨在从生物医学文本中识别出预定义的生物医学实体,并将其映射到标准的ICD编码或其他生物医学本体。它们为下游的生物医学知识图谱构建、智慧医疗以及智能医保控费的研究提供支持。基于此,本文分别研究了生物医学命名实体识别和临床术语标准化任务。针对中文医学命名实体识别任务中存在嵌套实体和低资源等问题,本文提出了基于指针网络和对抗训练的医学实体识别方法。通过使用指针网络标注的方式,可以无差别地识别非嵌套实体和嵌套实体,通过使用对抗训练在文本向量表示上添加扰动生成对抗样本,可以有效的缓解模型鲁棒性差的问题。实验结果表明,该方法对标注策略的改进及引入对抗训练可以有效的提高模型性能。针对中文临床术语标准化任务中,术语描述具有口语化、不规范性以及多样性的问题,本文提出了基于深度语义匹配的临床术语标准化方法。通过使用Jaccard相似度算法从标准术语集中生成候选术语集,使用BERT模型提取临床术语的深层语义特征,并构建二分类模型得到标准的临床术语名称。该方法在CHIP2019临床术语标准化评测数据集上进行了实验,准确率达到了90.04%,验证了该方法的有效性。针对中文多蕴含临床术语标准化任务中,蕴含标准词数量不确定、原始文本与标准词之间字面重叠度低、标准词之间存在依赖关系和标准词类目多等问题,本文提出基于知识增强的多蕴含临床术语标准化方法。该方法的总体思路是粗召回、精排序、再匹配的三阶段策略,通过构建标准词数量预测模块,引入知识表示学习算法捕获标准词之间的内在联系,构建临床诊断文本与标准词之间的映射规则集合,来达到提升性能的目的。该方法在CHIP2020临床术语标准化评测数据集上进行了实验,实验结果验证了该方法对于多蕴含临床术语标准化任务的有效性。

其他文献

三维遥感图像建模方法及渲染研究

遥感图像的三维建模及渲染方法是地理信息技术、数字图像处理、人工智能和计算机图形学等领域的热点研究之一,其在地质研究、国土资源监测、城市建设等诸多领域有着不可替代的作用。随着近年来大规模开放世界、数字孪生城市和元宇宙等前沿研究概念的提出和发展,业界对高效率、高质量、迭代速度快、泛用性强的三维遥感图像建模方法和渲染方法的需求日益迫切。为了解决这一问题,本文将三维过程化内容生成（3D Procedura

学位

基于骨架信息的动作识别研究

近些年,深度学习技术的迭代发展促使生产生活愈发智能化。在人机交互、安全监控、体育训练等多个领域内,动作识别技术有着极大的社会需求和发展前景。动作识别任务包括针对如视频模态、骨架模态等不同输入数据模态的子任务。相较于视频模态等其他数据模态,骨架模态可以避免背景信息的干扰,近年来,图卷积理论的提出与完善促进了骨架序列动作识别技术的发展。然而,现有基于图卷积的骨架序列动作识别方法仍存在局限性。本文从网络

学位

基于深度学习的图像抠取方法研究

图像抠取（Image Matting）是指从一张任意输入的图像中精细地抠取出用户所感兴趣的前景物体,该前景可以为人、动物、植物或网状等类别。被抠取的前景可以被多个应用领域所使用,譬如:绿幕电影拍摄及制作、虚拟现实（Virtual Reality）和增强现实（Augmented Reality）、在线会议背景替换、网络主播换装等。随着大数据时代的到来,海量的互联网数据对图像抠取算法带来了一系列新的挑

学位

面向检索的多媒体数据表征研究

数据检索是机器学习中重要的研究领域。机器学习算法对数据潜在信息挖掘能力的提升,以及提取的表征对数据相似性可衡量能力的增强,对检索任务而言有着非常重要的研究意义。凭借执行效率高和存储空间低的特点,哈希学习在检索领域中被广泛地研究和应用。哈希学习方法将高维原始空间的数据进行降维处理和编码操作,并映射成短小紧凑的二进制向量。该短小的编码在保持数据间相似性关系的同时,不但提升了检索效率,而且降低了数据存储

学位

对话文本的情感分析技术研究

随着社交媒体平台的发展,互联网极大地拓展了人与人之间交流沟通的渠道。海量的对话文本在网络上不断地被发布、传播和共享,其中蕴藏了大量用户的主观感受与情感倾向,需借助人工智能等技术进行分析与挖掘。对话情感分析任务为在对话场景下分析语段的情感极性或情绪类别,因对话具有多样的表达方式、复杂的逻辑结构和耦合的情绪因素,使得该任务成为文本情感分析领域的研究热点。本文按短对话到长对话、单标签至多标签的逻辑逐步深

学位

基于深度学习的文档级生物医学关系抽取研究

生物医学是一门前沿交叉学科,与人类的健康和生命息息相关。近年来,生物医学领域的电子期刊和文献数量飞速增长,用生物医学文本挖掘技术自动发现隐藏在这些非结构化数据中的领域知识是本领域进一步发展的关键。文档级生物医学关系抽取作为生物医学文本挖掘的一个重要分支,旨在从非结构化的生物医学文档中自动地抽取出存在的关系事实。目前,基于深度学习的方法是处理文档级生物医学关系抽取的常用方法。一方面,在文档级生物医学

学位

生物医学文本分类与篇章级关系抽取方法研究

在生物医学领域,数量庞大的医学文献逐渐构成了一个丰富的知识宝库,医学文献作为一种重要的知识来源为相关研究者们提供了重要的医学信息,有助于临床诊断、医疗问答系统等相关研究的发展。但是由于数据的增长是十分迅猛的,因此如何准确地从生物医学文献中自动提取信息,如何有效地将非结构化文本数据转换成结构化数据,成为生物医学自然语言处理领域研究的重要方向。本文旨在利用文本分类技术和关系抽取技术对生物医学领域的文本

学位

基于全景图的室内场景点云补全方法研究

三维重建是计算机视觉领域重要的研究方向之一,在文物保护、虚拟现实、机器人与自动驾驶等领域都有着广泛的应用。近年来,三维重建领域得到了快速发展,但三维重建模型仍有缺陷。受遮挡和距离传感器等内在因素影响,三维重建模型存在不同程度的缺失情况,因此引入三维补全进行修复。三维补全是三维重建领域中的一个重要研究方向。传统补全方法通过挖掘几何线索或匹配数据库模型实现补全,依赖于先验知识或数据库容量。深度学习方法

学位

基于知识迁移的多任务优化方法研究

多任务优化是当前智能优化领域的热点之一,多任务优化算法在优化多个彼此相关的任务时,通过迁移任务之间的有效知识来提升各个任务的表现效果。但传统的多任务优化算法通常用于优化规模较小的任务组,在面对任务量较大的优化场景时,会出现迁移效果变差、计算成本升高、任务收敛变慢等问题。为解决这些问题,研究者们提出了多任务质量多样性算法,它能够生成大量多样化且表现效果好的解决方案,在一些特定场景下可以同时解决大量任

学位

基于深度学习的生物医学文本检索

得益于深度学习的迅猛发展,信息检索领域中基于深度学习的检索模型也层出不穷。自预训练语言模型提出后,信息检索领域相关研究更是进行得如火如荼。作为信息检索领域的子领域,生物医学文本检索领域的研究却因为数据集不全、处理难度高等原因进展缓慢。但生物医学文本检索的发展对于人类健康有着重要的意义。尤其自新冠疫情以来,人们对健康问题的关注度更高、对生物医学文本的需求也更加迫切。因此,本文尝试将信息检索领域的研究

学位

面向生物医学文本的实体识别和标准化研究

与本文相关的学术论文