【摘 要】
:
信息抽取是使用自然语言处理技术解决知识图谱构建、知识补全、问答系统等问题的关键一环。随着深度学习技术的高速发展,信息抽取技术也由人工构建特征转为使用深度学习来对句子文本进行表征。根据语料信息,关系抽取任务可分为多元关系抽取和二元关系抽取。多元关系抽取需要识别句子中的多个实体及关系,二元关系抽取任务则需要对文本蕴含的关系信息进行更精确的识别。针对多元关系抽取任务和二元关系抽取任务,提出了相应的解决方
论文部分内容阅读
信息抽取是使用自然语言处理技术解决知识图谱构建、知识补全、问答系统等问题的关键一环。随着深度学习技术的高速发展,信息抽取技术也由人工构建特征转为使用深度学习来对句子文本进行表征。根据语料信息,关系抽取任务可分为多元关系抽取和二元关系抽取。多元关系抽取需要识别句子中的多个实体及关系,二元关系抽取任务则需要对文本蕴含的关系信息进行更精确的识别。针对多元关系抽取任务和二元关系抽取任务,提出了相应的解决方法。本文的研究内容如下:(1)介绍多元抽取与二元抽取情况下的关系抽取任务出现的问题,针对相关问题给出对应的解决方法。对比了卷积神经网络与循环神经网络在关系抽取领域中的优缺点。使用卷积神经网络结合膨胀卷积、残差连接等优化方法,将优化的卷积编码模块用于关系抽取任务。(2)针对多元实体关系抽取任务中的实体重叠问题,融合卷积编码模块与自注意力机制,采用贪心抽取策略,提出了一个实体与关系联合抽取模型MNN-RE。该模型使用共享编码层强化实体识别任务与关系抽取任务的关联。使用自注意力机制获取词的注意力分布,结合指针网络模块抽取实体。在预测关系的过程中使用贪心策略对全部关系进行预测,解决重叠实体之间的多关系识别问题,提高了重叠实体对的抽取准确率。在Du IE数据集上,验证集的F1值达到81.22%优于常见的multi-head、Bi TT联合抽取模型。(3)针对二元实体关系抽取任务的精度提升,结合BERT与句子分段的方法,提出BERT-Piecewise关系抽取模型。该模型将句子进行分段操作,使用BERT的句子类别信息层特征与具体的两个实体信息特征、实体之间的短句信息特征进行合并,结合不同尺度的文本信息,对实体关系进行抽取。在Sem Eval2010 task8数据集上进行实验,本文提出的BERT-Piecewise获得了88.49%的F1分数,优于常见的关系抽取模型,说明了结合BERT与分段方法的结合提升了模型的抽取效果。
其他文献
异常检测是一种重要的数据挖掘手段,它的目标在于发掘与大多数对象不同的对象,这部分对象被称为异常点或离群点。在实际应用中,异常点往往包含了很多重要的信息,提前发现异常对规避未知风险和提高数据质量有着重要的意义。异常检测技术在网络入侵检测、工业故障检测、信用卡欺诈检测等众多领域都有着大量应用。然而在当前的大数据环境下,传统异常检测算法面临着高维数据稀疏性强、海量数据计算速度慢、不同场景下异常定义难等问
近年来,中国南方工业化程度较低的旅游城市也出现了较严重的大气污染现象。桂林第三产业占全市GDP总额的56.9%,人均GDP与梧州市和崇左市持平;虽低于两市污染物排放量,但大气环境质量却较差,其中全州县、平乐县、永福县和市区PM2.5总量整体偏高,该现象值得深入分析。针对这一现象,从整体数据研究,发现桂林市当地的污染不足以造成严重的环境污染,桂林市的环境污染不仅仅来自于当地污染源,可能与外部污染源有
金属粉末床电子束增材制造技术要满足大尺寸金属零件的成形要求,需要扩大电子束的偏转角度,从而会加大电子束像散,常规两相绕组偏转扫描装置内部磁场的非均匀性会加大附加像散,附加散焦过大会超过偏扫扫描系统的聚焦校正能力,因而像散是制约电子束大广角扫描的主要因素。因此,提高偏转扫描装置内部磁场均匀性,有利于降低像散,提高电子束的扫描范围和大尺寸成形精度。本文首先总结了国内外电子束选区熔化技术与设备的研究现状
微震监测技术在建筑物或工程项目的安全监测评估、矿山生产活动、页岩气或石油开采中破裂位置监测、水库诱发地震监测等诸多方面有着非常重要的作用。一般是在待监测区域布置一定数量的微震数据采集节点,采集节点将采集到的数据通过微震数据传输系统传输到微震监测中心的主机服务器上,进行数据解释及可视化处理。针对不同的应用环境使用不同的数据传输方式,在矿下一般采用光纤或电缆的传输方式,在视野开阔,沟壑纵深的地方,譬如
图像超分辨率是计算机视觉和图像处理领域一个非常重要的研究问题,由于现实环境或硬件设备的影响而造成了图像的分辨率过低,导致人们无法从图像上获得更进一步的细节信息,而图像超分辨率重建技术可以通过借助原始低分辨率图像重建成细节更丰富、清晰的高分辨率图像。随着深度学习在图像超分辨率重建工作中的发展,图像超分辨率重建的效果越来越好。本文主要针对现有的卷积神经网络超分辨率重建算法在泛化和网络特征复用等方面存在
目标跟踪是当前机器视觉领域内研究和应用的热点,国内外学者致力于提升跟踪算法的准确度和鲁棒性。如今,随着无人机在生产生活中的广泛应用,在无人机平台上实现计算机视觉应用已经成为了一种发展趋势。本文设计了一种伪孪生网络框架,该框架包含一个目标跟踪分支和一个模板库分支,分别执行目标跟踪任务和模板存储更新任务。目标跟踪分支是基于核密度估计改进的算法完成目标跟踪任务,该分支算法能解决无人机目标跟踪过程中的尺度
随着智能设备的普及以及科技的迅猛发展,传统的身份验证方式,如ID卡、密码、签名等已经不能满足人们对数据安全以及信息保护的要求。目前大多数的生物特征系统是将用户的特征信息直接存储或进行用户身份的认证,很容易遭到攻击,从而导致用户信息的泄露。因此,构造一种安全可靠的生物特征识别方案是人们关注的热点问题。其中构建一个安全的数据模板及评分标准成为关键。与其他生物特征相比,声纹识别具有无接触、信息量大、成本
随着我国经济的快速发展,汽车总量急剧增加,原有的交通监管系统相对滞后。如何建设一套适合新形势的、完善的、智能和精确的交通监管系统,成了亟待解决的问题。交通监管系统综合应用了各种重要的技术,其中车辆目标检测是非常关键的一项。因此,车辆目标检测成了近年来的研究热点,受到图像处理与识别、人工智能等相关领域学者的广泛关注。目前主要有两种车辆目标检测方法。第一种方法是使用人工提取特征结合机器学习分类来检测车
BOC调制技术作为一种新型调制方式在全球卫星导航系统中得到广泛应用,其频谱分裂特性和窄相关峰特性能够避免与其他信号频谱混叠,增强抗多径能力及伪码跟踪精度,在有限的频带资源条件下很好的解决了GPS、伽利略、格洛纳斯以及北斗等卫星导航系统的兼容共存问题。然而BOC信号的自相关函数相比于传统BPSK信号具有多个副峰,导致GNSS接收机在接收端进行捕获跟踪处理时易捕获到其他旁峰引起模糊问题。本课题正是针对
5G时代的来临,电子设备的功耗和频率逐渐上升,导致其发热量急剧上升,这给电子器件热稳定性带来了极大挑战。因此,电子设备中热界面材料的作用日益突出,电子产品在设计时会加入高性能热界面材料来加快电子产品的散热延长其使用寿命。传统的热界面材料一般由聚合物和导热填料组成,常见的导热填料有金属纳米颗粒、陶瓷材料、碳纳米材料等。碳材料单元具有优异的力学和导热特性,通过结构优化获得石墨衍生物,降低填料维度可以减