【摘 要】
:
实体关系抽取是自然语言处理领域的一个重要分支,是指从非结构化或者半结构化的文本中抽取出用户感兴趣的内容,并将其组织成结构化文本的文本处理技术,是知识图谱构建中知识获取最重要的工作。本文致力于端到端实体关系抽取算法研究,从“模型”和“数据”两方面出发,分析解决了目前端到端实体关系抽取无法完成重叠三元组抽取的问题,并缓解了实体关系抽取任务中所存在的三元组漏标和标注数据稀缺问题。本文在分析和总结现有实体
论文部分内容阅读
实体关系抽取是自然语言处理领域的一个重要分支,是指从非结构化或者半结构化的文本中抽取出用户感兴趣的内容,并将其组织成结构化文本的文本处理技术,是知识图谱构建中知识获取最重要的工作。本文致力于端到端实体关系抽取算法研究,从“模型”和“数据”两方面出发,分析解决了目前端到端实体关系抽取无法完成重叠三元组抽取的问题,并缓解了实体关系抽取任务中所存在的三元组漏标和标注数据稀缺问题。本文在分析和总结现有实体关系抽取方法的存在问题和不足基础上,提出了一个基于多层序列标注和多信息联合标注策略的端到端实体关系抽取模型。该模型利用两段序列标注的方法从“主体实体”抽取和“客体实体-关系”抽取两个方面完成自由文本中的实体关系三元组抽取,并利用了联合训练机制,同时完成两个子模型的训练。在SKE数据和NYT数据集上,该模型的性能超过了本文所选的所有对比模型,在借助BERT模型作为编码器的情况下,F1-Score分别达到了80.5%和76.6%。针对标注数据中的三元组漏标问题,本文从“正样本减少”和“负样本误标”两方面的影响展开研究。为了量化“正样本减少”和“负样本误标”对模型训练带来的影响,引入了一个调节损失函数来计算这两方面影对模型带来的F1-Score下降比例。为了缓解三元组漏标问题,提出了一种基负采样训练方法,并通过实验证明了该方法的有效性。针对标注数据稀缺问题,本文对Tri-Training半监督算法在未标注数据预处理、模型初始化、模型迭代三个阶段进行了改进。在实验部分,为了验证该半监督算法在实体关系抽取任务上的有效性,我们对训练数据采用了多个比例的下采样来模拟各个数量级下的模型训练任务。通过与监督训练和改进前的Tri-Training算法进行对比试验,证明了本文改进的Tri-Training算法能够很好的缓解标注数据稀缺问题。最后将本文的研究成果应用到实际场景下的知识图谱构建中。通过少量的人工标注数据和大量未标注数据相结合的半监督方式完成了实体关系抽取模型的训练,并用该模型在大量非结构化数据上进行三元组抽取。本文通过多轮人工标注的方式从非结构化数据中构建了一个高质量的测试集,并用测试集对模型的抽取效果进行了测评。实验结果表明本文的实体关系抽取方法可以很好的解决实际应用下的“重叠三元组”、“三元组数据漏标”和“标注数据稀缺”问题。
其他文献
200km/h高原艰险山区客货共线铁路的规划与修建预示着铁路作为高原艰险山区物资进出的主通道格局即将形成,铁路货物运输将带动区域经济整体加快发展,促进高原艰险山区加速融入国家经济发展新格局。但高原艰险山区恶劣的气象环境和复杂的地形特点不止给铁路的修建带来了极大地挑战,也使得高原艰险山区铁路的货物运输组织及铁路货车车辆的安全运行变得十分困难,尤其是设计速度为200km/h的客货共线铁路,货物运输组织
近几年,在京津冀协同发展、筹办举办冬奥会和首都“两区”建设的背景之下,张家口市迎来了生态产业发展的良好契机。优化政策工具是实现张家口市产业高质量发展的关键。本研究充分梳理了2016-2020年间省市两级有关张家口市生态产业的政策文本,从基本政策工具维度和产业价值链维度两方面,建立张家口市生态产业政策工具二维分析框架,以张家口市生态产业政策工具为研究对象,结合本地实例,发现对生态产业进一步立足于本市
当今,随着电子商务相关在线平台变得愈加成熟,智能手机等移动终端的遍及也使得用户生成内容遍布互联网。用户评论作为用户生成内容的典型代表,是企业和消费者共同关注的重点,企业通过文本评论挖掘创造商业价值,消费者购买决策受用户评论影响。文本挖掘俨然是当前的热点研究话题,其中文本情感分析是最具代表性的解决方法。然而,当前文本情感分析主要以单步决策为主,忽略了决策的动态性;同时传统文本情感分析研究主要从分类精
铁路隧道建设迅猛发展,机械化工程建设及隧道施工技术水平将逐步迈向一个新高度,隧道施工方式朝着机械化、信息化、智能化方向转变。对于双线高铁超大断面隧道,传统上一般采用分部方式进行开挖,但此方法开挖工作面狭小、施工转换工序较多、大型施工机械难以施展身手,导致开挖效率不高,工程进度相对缓慢。近年来,随着铁路隧道建设的不断发展,双线高铁隧道机械化全断面施工方式应运而生。显然,在一次性开挖面积较大的情况下,
扭动微动磨损是由于交变载荷作用下,发生于接触表面间角位移幅值较小的循环往复运动。扭动微动磨损广泛存在于交通工具、航空工业、人体关节、轴承球窝等紧固部件中,在损伤初期不易察觉,但是危害性极大。目前切向微动以及光滑面的扭动微动已广受关注,但考虑粗糙表面的扭动微动磨损研究甚少。在实际的工程机械中,接触表面并非绝对光滑,而是由大量微凸体构成,实际接触只发生在较高的微凸体上,其接触力学行为与光滑面接触时完全
近些年来,随着人们生活水平的提高,消费能力不断增加,在电子商务的发展下快递业务量更是迅速增加,传统的配送任务主要是由燃油车来完成,而燃油车尾气排放是造成环境污染的重要原因,且燃油车具有燃料成本高的缺点。国家越来越倡导绿色物流的发展,电动物流车得到大力推广,与燃油车相比,电动物流车在财政补贴、节能环保和运营成本等方面具有显著优势,因而得到越来越多企业的青睐,开始替代燃油车来完成配送任务,但对电动车的