基于跨度(span)的信息抽取方法关键技术研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:mileyChina
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
得益于近年来信息技术的迅猛发展和可使用数据的爆炸性增长,信息抽取任务成为自然语言处理(Natural Language Processing,NLP)领域中的研究热点。这类任务主要研究如何从海量的数据中快速、准确地获取有用的信息。本文围绕基于span的信息抽取建模方式,针对信息抽取领域常见的三个任务:命名实体识别、实体-关系联合抽取以及使用远监督数据集的实体-关系联合抽取展开了深入研究与探索。命名实体识别任务是后续工作的基础,实体-关系联合抽取和远监督任务都是在命名实体识别任务的基础上进行的。但目前主流的基于序列标注的命名实体识别方法存在一些不足。序列标注模型不符合人类对语言的认知习惯。同时,这种方法产生的抽取结果难以与下游任务结合,这会导致级联误差传递,影响下游任务的性能。针对这些不足,本文提出了一种基于span分类的模型,通过考虑span的整体语义而不是span中每个token的语义来提高命名实体识别任务的性能。此模型被称为span分类模型。实验表明,span分类模型在2012 i2b2数据集上获得了最佳的微观平均F1分数(81.22%),并获得了与2010 i2b2数据集上的SOTA相当的F1分数(89.25%)。实体-关系联合抽取是目前信息抽取领域研究的前沿。但目前主要的研究集中在对关系表示向量的构筑上,对不同实体表示方法带来的性能影响缺少相关研究。在现有实体-关系联合抽取框架的基础上,本文研究了不同span向量表示方法的性能,并提出了一种基于Bi-LSTM的span向量表示方法。通过结合多种span向量表示方法,在Co NLL04数据集上,命名实体识别取得了89.37%的F1得分,关系抽取取得了72.64%的F1得分。相较于原模型,分别提高了0.43%和1.17%。远监督是一种使用现有知识库,对非结构化文本进行标注,生成数据集的技术。该方法解决了人工标注数据集成本昂贵以及可用数据集不足的问题,但它生成的数据集往往具有大量噪音,影响了实体-关系联合抽取模型的性能。针对这一问题,本文提出了一种名为“group loss”的损失函数,通过引入自适应损失权重,降低数据集中噪音对模型性能的影响。在百度千言数据集上的实验表明,使用了“group loss”的模型相较于使用普通损失函数的模型,性能大幅度提升。
其他文献
文本分类作为自然语言处理领域的基础课题之一,一直以来都有着重要地位。目前在众多基于深度学习进行文本分类的方法中,以Transformer模型为基础的方法最为热门,其中一个最突出的例子就是BERT模型。Transformer模型进行文本分类能够取得良好表现的关键就是它的自注意力机制,该机制保证了模型能够从长短不一的文本中提取到有用的语义信息,进而实现文本分类。本文对BERT模型的随机生成掩码生成机制
学位
经济政策不确定性指标得到有效衡量后,众多学者将其广泛应用到股票市场、外汇市场等研究。受国内外经济事件影响,经济政策波动加剧,导致中国在岸股票市场和离岸股票市场出现明显差异。由于市场间信息互换越来越便利,风险扩散的可能性也不断上升,这对我国市场安全及投资者未来预期提出巨大挑战。尤其是,2020年-2021年新冠疫情的爆发使得全球经济不稳定性再一次上升,从而引起股市波动。因此,研究经济政策变动对我国股
学位
高光谱遥感是遥感领域的前沿技术之一。二十多年来,高光谱遥感已经被应用到农业,军事,医学,水文,地质,城市规划等等各个领域。但是高光谱图像本身没有具备清晰的空间分辨率,数据中通常会有大量混合像元的存在,混合像元会降低基于高光谱图像的目标检测和识别的精度,因此了高光谱领域的重点就是如何成功的分解混合像元。端元提取作为分解混合像元的核心步骤也是研究的重点之一,本文主要研究方向就是以凸面几何学理论为基础的
学位
随着我国对创新型经济建设要求的不断深化,突显出提升国家自主创新能力的重要性。高技术产业拥有较高的R&D投入强度,是我国自主创新能力建设的重要主体。然而,由于创新活动高风险的特征,以及高技术产业企业与外部投资者之间存在的信息不对称问题,造成创新企业外部融资路径不通畅,限制了研发投入,进一步阻碍创新水平的提升。当前,我国高技术产业的研发投入规模和发明专利申请量在国际上处于领先水平,但研发投入强度和将专
学位
多年来以环境污染、能源浪费为代价的粗放式经济发展模式下,我国经济总量快速增长,但环境和资源的极大压力已使这种模式难以为继。促进经济向高质量、高水平发展已是势在必行。习近平总书记在回答学生提问时指出“既要金山银山又要绿水青山,绿水青山就是金山银山。”在此背景下多种宏观调控政策出台,力促经济转向高水平、高质量发展,绿色信贷政策就是调控政策中的一种。金融监管机构要求商业银行作为绿色信贷政策的实施主体,在
学位
在日趋严峻的外部国际形势和内部创新驱动变革的要求下,如何实现制造业企业良性发展,并向“创新驱动”转型,成为亟待解决的问题。本文基于产业集聚视角,对我国制造业的创新模式和国际竞争力间的影响进行研究。在研究方法上,本文将三种创新模式、产业集聚和国际竞争力放在同一框架内分析,考虑产业集聚的调节效应,并对当前研究进行深化补充,且通过实证检验为该分析框架提供数据支撑。通过回顾中国制造业发展历程,发现其正向“
学位
<正>住院医师规范化培训(住培)是临床医学教育的有机组成部分[1]。对于疾病的深刻理解与规范化诊疗是降低患者病死率的重要方法。因此,规范化、系统化与流程化的诊疗思维是住培医师重要的培训内容。急诊科是除了儿科系统外,各专业住培生的必须轮转科室。
期刊
党的十九届五中全会明确了科技创新对于我国经济高质量发展的重要性,提出要大力发展战略性新兴产业,加大科技创新投入旨在实现技术的创新与突破。而战略性新兴产业的创新投入,资金支持显得非常重要,既要推进社会资本投资,也要政府做好政策与资金的引导工作。基于以上背景,本文以战略性新兴产业为研究对象,首先研究不同市场融资机制下,股权融资和债权融资与企业创新投入的关系;其次,研究政府补贴与企业创新投入之间的关系,
学位
近年来,随着我国经济结构的转型升级,文化产业逐渐发展成为我国的支柱性产业。在长三角区域经济一体化发展政策的支持和引导下,区域内的文化产业逐渐由分散型发展转变为集聚式发展,由此形成的文化产业集群对区域经济发展有着重要影响,为实现长三角区域一体化发展发挥着重要作用。那么,文化产业集聚如何影响经济发展,经济发展如何反作用于文化产业集聚的?大多数现有的研究对上述问题进行了单向的研究即经济发展对文化产业的影
学位
在数值模拟复杂流体物理现象时往往需要使用偏微分方程描述,并通过适当的空间和时间离散以求出可靠的近似解,而空间离散的主流方法往往是将计算域剖分为拓扑不规律的非结构网格。如果计算域边界会运动或变形,就需要动态获取新的网格来计算,方法主要包括网格重构和网格变形两种,且后者因能保持网格拓扑关系不变、避免引入新的离散误差而被广泛研究与应用。现有的网格变形技术计算新网格的质量与效率还不够高,而网格质量下降更是
学位