生物医学领域知识增强的文本摘要方法研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:hotjune
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在生物医学领域,由于电子病历、临床记录、生物医学文献等资源不断飞速增长,信息过载问题变得尤为严重,人们难以从海量文本资源中高效、准确地获取有效信息。文本摘要技术旨在从大量的文本数据中自动提取关键信息,可在一定程度上缓解生物医学领域信息过载的压力。然而,生物医学文本往往包含大量专业术语,现有的文本摘要模型难以充分挖掘并理解专业术语中包含的语义信息,生成的摘要往往存在关键信息遗漏、覆盖不全面等缺陷。针对以上问题,本文提出利用生物医学背景知识对文本摘要模型进行知识增强,以提高模型在生物医学文本上的摘要生成质量,本文的主要研究工作如下:第一,为了将生物医学领域背景知识有效地融入到抽取式文本摘要模型中,本文提出模型BioBERTSum-meta,该模型通过提取出文本中的专业术语及其概念对文本摘要模型进行知识增强,以提高模型在生物医学文本上的效果。具体而言,该模型首先建立文本与生物医学领域超级叙词表之间的映射关系,以此来获取文本中包含的专业术语及相关概念作为背景知识。然后将上述知识以术语概念对的形式融入到模型编码器中,帮助模型更好地理解领域文本的特定语义信息。此外,考虑到句子位置信息对抽取式文本摘要模型的重要作用,本文将位置信息编码为位置向量,来帮助模型学习文本的结构特征。本文在三个生物医学领域的数据集上进行实验,实验结果验证了提出模型的可行性和有效性。第二,鉴于抽取式文本摘要结果往往存在冗余度较高,且不符合人类写摘要的思维习惯等特点,本文提出了生物医学领域核心内容感知的生成式文本摘要模型PG-meta。首先,为帮助文本摘要模型聚焦于文本关键信息,缓解冗余知识可能对文本摘要模型造成的消极影响,本文通过抽取式文本摘要技术获取文本核心内容,再映射到生物医学领域超级叙词表中以获取全局关键的术语概念对。其次,本文利用注意力机制来为全局关键的术语概念对分配权重,引导模型生成摘要时更聚焦于文本中的核心生物医学背景知识,从而提高文本摘要模型的效果。实验结果表明,在生物医学领域数据集上,PG-meta模型能够更好地捕获生物医学文本关键信息,生成更优质的摘要结果。
其他文献
人机对话,主要目标就是希望机器能够与人类进行流畅、自然的对话,从而便利人类的生活,满足人类的需求。为了增强对话质量,使机器生成的语句更像人类发出,涌现出了各种各样的人机对话系统。但是,在开放域中,如何能让机器清楚理解人类意图,明确对话目标,仍是一直在攻克的难关。因此,本文主要关注在开放域中的对话生成,该任务旨在生成更符合逻辑,与上下文衔接更紧密,更具有主题性和多样性的回复内容。本文的主要工作如下:
随着互联网技术的飞速发展,基于互联网的电商平台如雨后春笋般涌现,用户在这些平台上发表意见、抒发个人情感已经成为一种习惯,海量的评论数据随之产生,发掘出用户的情感倾向已经成为产品售后信息反馈的重要途径。目前文本情感分析任务中研究的对象主要是微博评论、电影影评、电商评论,针对线上课程评论进行情感分析的相对较少。但是线上教学已经成为我国中小学教育和普通高等院校教学中的重要组成部分,针对线上课程评论进行情
伴随互联网技术在我国公共教育场景的广泛应用与发展,深度学习技术助攻在线MOOC学习平台,为各行各业的教育研究者和学习者提供了便捷沟通和智能学习的渠道,开启了信息时代的教学新革命。MOOC在线论坛作为平台教学的重要辅助工具,平台课程讨论区存在的大量交互贴文本数据,隐含着学习者在参与论坛讨论过程中的各种话语行为及认知思维形态,基于深度学习技术识别学习者话语内容中潜在的认知行为类别,对研究MOOC论坛中
2020年新型冠状病毒肆虐全球,疫情防控迫在眉睫。为防止疫情扩散,正确佩戴口罩在人们的日常生活中至关重要。目前针对大范围人员流动场所一般配备检查人员进行口罩佩戴检测,该方式存在工作人员与他人接触感染的潜在漏洞,同时无法具备全天候监测等不足。通过运用计算机视觉技术解决口罩佩戴检测问题,不仅可以避免人员之间交叉感染的风险,而且能够有效化解当下疫情常态化防控难题。口罩佩戴检测在计算机视觉领域可以视为两阶
细菌是常见的人体微生物,影响着人类健康。但是随着抗生素的滥用,人体内某些有害细菌产生了耐药性,导致超级细菌的出现,成为人类面对的难题。噬菌体是以细菌为宿主的病毒,具有很强的特异性,可以在宿主体内进行自我繁殖,并使宿主失活。噬菌体疗法不易产生耐药性且杀菌效果强,其杀菌效率是目前常规抗生素的数百倍甚至数万倍。噬菌体疗法给医疗界带来了希望,但是通过传统的生物实验来寻找有效的噬菌体常常效率低。生物信息学基
随着信息技术的飞速发展,人们的生活正在发生巨大改变,人们对基于位置服务的需求越来越迫切,尤其是室内位置服务。室外定位系统中BDS系统、GPS系统等受室内复杂环境条件限制精度大幅下降甚至失效,难以在室内定位中发挥作用,而室内二维定位技术缺乏高程信息,也难以满足人们对室内位置服务的需求,三维定位技术普遍存在精度高时硬件成本也相对较高而难以大范围推广,硬件成本较低时定位的精度大幅下降而难以满足位置服务需
因果复句是汉语中应用最广泛,使用最频繁的复句,是汉语复句研究中不可缺少的一个重要部分。复句的研究首先是要理解复句的语义,这就需要对复句的关系进行识别。对有标复句来说,可以根据关系词来识别复句的关系,但关系词识别也是一个难题,有时一个关系词可以对应多种类别,这更为复句的关系识别增加了困难。目前,对于复句关系识别有多种方法,基于规则和基于机器学习的方法都太过依赖人工选择的特征,会存在人工构建特征稀疏、
量子色动力学(Quantum Chromodynamics,简称QCD)是一种描述夸克和胶子之间强相互作用的规范理论。QCD预言当达到一定的高温高密状态时,禁闭在强子态内部的夸克会解禁闭形成夸克胶子等离子体(QGP)。在低温高重子化学势区域,强子态到QGP是一级相变,且一级相变的终止点为临界点;高温低重子化学势区域为平滑过渡区域。对于QCD相图的结构,其中最重要的便是确定临界点的位置。目前理论认为
科学技术的不断发展给网络技术推动人类文明进步提供了平台和导向。当今的信息化时代,监控视频广泛应用,使得智能视频获得了前所未有的发展。但是还未满足市场对其更人性化的需求,如一些固定场景下的实时行为识别检测、行为警报系统等应用。越来越多的人开始关注视频识别检测领域的发展情况,并进行科学研究和分析。在行为检测方面,相比于费时费力的传统方法,卷积神经网络算法因为其高速、准确的识别优势,使得很多相关领域的研
传统的Nicolson-Ross-Weir(NRW)方法具有宽频带和高精度的特点,但却存在诸如半波谐振,相角跳变和多值性等问题。其中,多值性问题的主流解决方法存在计算复杂、条件苛刻等问题,在实际使用中有诸多限制。因此,研究一个简易、精确的电磁参数反演方法具有重要的应用价值。本文简述了电磁参数反演的原理,以及目前反演方法的分类及研究现状,针对当前最常用的NRW法及其存在的问题进行深入的分析,提出了一