基于深度学习的实体和关系联合抽取模型研究与应用

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:liweibo2555
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网时代的到来,互联网信息呈现指数级增长,其中文本信息占据了相当大的比例。实体识别和关系抽取能够帮助人们从海量的文本中抽取出实体和实体间的关系,是构建领域知识图谱、人机对话等自然语言处理领域任务的基础工作,具有重要的意义和价值。传统的流水线模型将实体识别和关系抽取当作两个独立的子任务,存在着错误传播、信息冗余以及没有建立两个子任务依赖的问题,这些问题都会影响最终抽取的效果。为了解决流水线模型中存在的缺陷,本文围绕实体和关系的联合抽取模型展开了研究,调研了国内外现有的实体识别、关系抽取以及实体和关系联合抽取模型,整理并分析了现有模型中存在的缺陷和不足,从基于参数共享和基于标注策略创新两个角度出发,提出了两种联合抽取模型。主要的工作内容如下:1、针对流水线模型忽略两个子任务内在依赖的问题,提出了一种融合子句信息的联合抽取模型。模型基于参数共享的方法,使用预训练语言模型BERT作为实体识别和关系抽取的共享编码层,来建立两个子任务之间的联系,并且通过将实体对编码信息与子句信息相结合,提高了关系分类的性能。模型在Co NLL04数据集上实体识别和关系抽取的F1值分别达到了89.2%和71.5%,证明了本文提出模型的有效性。2、针对信息冗余问题,构建了基于分解标注策略的联合抽取模型,将实体和关系联合抽取任务转化为头实体识别、尾实体和关系抽取两个子任务,并且在训练阶段引入偏置权重缓解了标注策略带来的类别不平衡问题,在预测阶段基于句子语义关系对模型结果进行修正,提高了模型的性能。模型在NYT数据集上F1值达到了88.6%,相较于其它联合抽取模型取得了最好的性能。3、将本文提出的两种联合抽取模型应用于面向音乐领域的实体和关系抽取系统中,实现了将音乐文本转化为结构化的三元组,为构建音乐领域知识图谱提供数据支持。
其他文献
量本利分析在生产决策中应用之实例泰州无线电仪器厂张开林量本利分析是成本——产品——利润分析的简称,它是运用数学方法计算和图示法,以变动成本为基础,边际贡献为核心,揭示产
在燃料能源变革的新时代,“水平井+水力压裂技术”促使页岩油气成为新的开发热点。页岩储层孔隙结构复杂、烃类储集形式多样、孔隙介质尺度跨度大,常规渗流理论已无法准确模
企业人事行政管理是运用科学的理论和方法,研究人事管理及其规律的科学。思想政治工作使人事行政管理的力度和作用得到加强,人事行政管理使思想政治教育成果得以体现和巩固。
会议
<正>1、云门舞集:华语社会的第一个当代舞团。这句话,是云门舞集对自身价值追求和艺术定位的一个基本判断。其实,这个基本判断和古籍中传说为黄帝纪功乐舞的《云门》没什么内
障碍物检测是智能车辆研究中的一个重要内容 .用射影几何的方法给出了用重投影变换进行障碍物检测的一般原理 ,并引入摄像机的内、外参数和姿态参数 ,建立了重投影变换的参数
特定分析物的定量测定在生命科学和环境监测领域是非常重要的。其中,光学测试允许在生物环境内进行非侵入性测量,并且可以并行监视多个样本以及进行侵入性较小的生物荧光成像
介绍了配料系统输送小车的绝对认址和速度控制方法,并给出了其PLC的实现。实践证明了该方法的有效性与可靠性。
股价同步性现象在全球各个资本市场中都存在,但是在新兴市场中表现的更加明显。根据以往学者的研究发现,中国证券市场的股价同步性水平在全球范围内都尤为显著,超过其他证券市场的平均水平,过高的股价同步性不利于投资者通过公司信息判断公司价值进行理性投资,可能导致优质资本流入经营效益差的公司,产生逆向选择问题,降低市场运行效率。因此,根据股价同步性的成形原因和影响因素可以通过加大市场监管等手段降低股价同步性,
双层股权结构设计,源于公司发展中融资需求与控制权稀释的两难选择问题。我国此类公司大多是以互联网为内核特点的新型高科技公司,迫于政策限制,这些公司早期大都被迫远赴海