面向生物医学文本的实体关系抽取研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:tianlingfengice
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,各种知识库中存储了海量的生物医学文本,其数量还在呈指数增长。这些文献是生物医学技术发展的结晶,通过信息抽取技术挖掘隐藏在生物医学文本中的有用知识是一个重要的研究课题。实体关系抽取是信息抽取的一个关键子任务,它在命名实体识别的基础上,把包含实体对的文本分类到预先定义好的关系类型中。目前,面向生物医学文本的实体关系抽取研究致力于通过构建深度学习模型来自动地从无结构化的生物医学文本中抽取出结构化的生物医学实体关系三元组。与通用领域不同,生物医学文本一般较长且更为复杂,同时存在较多噪声词如一些特殊的医学符号,这些都给生物医学实体关系抽取带来了不小的挑战。基于此,本文首先提出了一个自监督图注意力网络来完成句子级的生物医学实体关系抽取任务,该方法将自监督学习嵌入标准的图注意力网络中。图注意力网络能够自动学习句子中词与词之间的相关性,所以模型将会更加关注于有用信息的学习从而降低噪声词的干扰。自监督则是利用依存句法解析树来监督图注意力网络的学习,既能提高其对句法特征的学习能力又能增强其可解释性。在多个公开数据集上的实验结果表明,该模型在句子级生物医学实体关系抽取任务上表现优越。在真实的生物医学文本中,大量实体间关系无法通过单个句子信息识别出来,往往需要多个句子联合判断。文档级关系抽取的目标是从文档的多个实体对中抽取出不同的关系类型,而不是局限于单个句子。一篇文档中不同实体关系之间往往是相互联系的,因此本文提出了一种基于实体级关系图的方法来完成该任务。该方法首先使用一个编码模块来获取实体的上下文信息,并以所有实体为节点和被预测的关系为边来构成一个全连接图。然后使用卷积神经网络和自注意力机制更新关系边的表示,它们分别关注于局部的和全局的关系依赖。实验结果表明,该方法能够有效提升文档级关系抽取的性能。目前大部分的生物医学实体关系抽取模型都是根据文本和实体信息来进行关系分类,却忽略了关系词在关系抽取中的重要作用。一般来说,出现于文本中的关系词能够直接表示实体对所属于的关系类型,对于模型正确预测关系具有明显的指导作用。因此本文首先构建了一个标注系统来获取数据集,然后提出了一个关系和关系词联合抽取的深度学习方法。该方法使用预训练语言模型和双向长短期记忆网络分别编码全局语义特征和序列特征,这些共享特征将用于推理关系类型和识别关系词。实验结果表明,关系和关系词联合抽取模型可以同时提升关系抽取和关系词识别的效果。
其他文献
在生物医学领域,数量庞大的医学文献逐渐构成了一个丰富的知识宝库,医学文献作为一种重要的知识来源为相关研究者们提供了重要的医学信息,有助于临床诊断、医疗问答系统等相关研究的发展。但是由于数据的增长是十分迅猛的,因此如何准确地从生物医学文献中自动提取信息,如何有效地将非结构化文本数据转换成结构化数据,成为生物医学自然语言处理领域研究的重要方向。本文旨在利用文本分类技术和关系抽取技术对生物医学领域的文本
学位
三维重建是计算机视觉领域重要的研究方向之一,在文物保护、虚拟现实、机器人与自动驾驶等领域都有着广泛的应用。近年来,三维重建领域得到了快速发展,但三维重建模型仍有缺陷。受遮挡和距离传感器等内在因素影响,三维重建模型存在不同程度的缺失情况,因此引入三维补全进行修复。三维补全是三维重建领域中的一个重要研究方向。传统补全方法通过挖掘几何线索或匹配数据库模型实现补全,依赖于先验知识或数据库容量。深度学习方法
学位
多任务优化是当前智能优化领域的热点之一,多任务优化算法在优化多个彼此相关的任务时,通过迁移任务之间的有效知识来提升各个任务的表现效果。但传统的多任务优化算法通常用于优化规模较小的任务组,在面对任务量较大的优化场景时,会出现迁移效果变差、计算成本升高、任务收敛变慢等问题。为解决这些问题,研究者们提出了多任务质量多样性算法,它能够生成大量多样化且表现效果好的解决方案,在一些特定场景下可以同时解决大量任
学位
得益于深度学习的迅猛发展,信息检索领域中基于深度学习的检索模型也层出不穷。自预训练语言模型提出后,信息检索领域相关研究更是进行得如火如荼。作为信息检索领域的子领域,生物医学文本检索领域的研究却因为数据集不全、处理难度高等原因进展缓慢。但生物医学文本检索的发展对于人类健康有着重要的意义。尤其自新冠疫情以来,人们对健康问题的关注度更高、对生物医学文本的需求也更加迫切。因此,本文尝试将信息检索领域的研究
学位
随着医疗信息化建设和生物科技的迅猛发展,生物医学文献和电子病历的数量呈现出指数级增长的态势,蕴含在这些生物医学文本中的信息成为生物医学研究的宝贵资源。但由于生物医学文本大都是以自然语言描述的非结构化形式存在,计算机无法直接对其进行有效的分析和利用。因此,通过生物医学文本挖掘技术对生物医学文本进行有价值信息的提取和利用,将对生物医疗技术的进步和医疗健康领域信息化建设的发展产生深远和积极的影响。生物医
学位
浩如烟海的生物医学文献中储藏着大量非结构化的信息,是生物医学信息挖掘的重要来源,对于隐含知识发现研究而言更是宝贵的待开发资源。一方面,使用自然语言处理技术和深度学习方法自动化进行药物重定位,能够极大地降低药物研发的经济成本和时间成本;另一方面,药物重定位系统作为药物研究人员研发的参考依据,其推断结果需要具备充分的准确性和可解释性。如何高效而准确地将生物医学文本中的信息结构化是生物医学文本挖掘的一个
学位
随着互联网技术的发展,越来越多的社交媒体网络平台逐渐产生,为人们带来了新的获取信息的途径,成为了人们日常生活中获取公开信息的主要来源方式。相比与传统的新闻媒体,微博、今日头条等社交媒体网络具有更好的互动性和时效性,有着更丰富的新闻表现形式,能够在新闻发生后第一时间帮助人们获取相关资讯。但是社交媒体网络中的新闻并非全部都是关键信息,包含大量冗余内容。人们可能需要花费更多的时间从新闻中获取需要的信息。
学位
神经网络中文分词系统可以在手工标注资源丰富的领域内场景下能提供最先进的分词性能。但是,当遇到医疗领域等专业文本时,由于领域内标注资源的稀缺导致中文分词系统的性能骤降。现有神经网络中文分词系统在低频术语的分词上表现不佳。针对中文分词任务在跨领域场景下的数据分布不匹配和未登录词识别困难问题,提出了一种词典增强图卷积神经网络领域自适应中文分词方法。首先,利用外部词典对输入句子进行候选词匹配,构建基于词典
学位
近年来,视频成为了各大媒体的主流数据,基于视频数据的研究成为了当下的热点。动作识别针对的是人体运动相关的视频,是目前人工智能领域中比较前沿的研究方向。动作识别已广泛应用于诸多领域,如步态分析、增强现实、人机交互、娱乐和游戏、体育科学等,因此具有巨大的研究意义和研究潜力。本文面向动作识别领域中的多粒度分类问题进行研究,当前相关算法已经取得了重大突破,然而仍存在一些待解决的问题。首先,现有方法中的自注
学位
本篇报告是一篇关于机器翻译加译后编辑模式下的翻译实践报告。原文选自《泡沫灭火系统设计规范条文说明》的前两章。该文本是中国公司为援助柬埔寨消防建设,根据相关中国标准编写的文件,需要翻译成英文供柬埔寨相关部门作为该国国家标准借鉴使用。该项目旨在提高目标读者对消防规范的了解,并在翻译过程中提供有效的翻译策略。原文用词准确、严谨、逻辑性强,内容存在较多数字和表格,属于典型的信息型文本。在译后编辑过程中,通
学位