【摘 要】
:
关系抽取是知识抽取的重要步骤,旨在从文本语料或多模态数据中发现实体间语义关系,从而为知识图谱构建提供知识三元组,并直接影响知识图谱的质量及应用效果。近年来,关系抽取研究取得了很大进展,但现有研究工作大多集中于句内关系及简单实体对关系,而针对文档级关系抽取及重叠关系抽取的研究目前仍然面临两方面的挑战:(1)在文档级关系抽取中,关系对应的实体对通常跨越多个句子,如何精准地统一实体信息及多个句子语义信息
论文部分内容阅读
关系抽取是知识抽取的重要步骤,旨在从文本语料或多模态数据中发现实体间语义关系,从而为知识图谱构建提供知识三元组,并直接影响知识图谱的质量及应用效果。近年来,关系抽取研究取得了很大进展,但现有研究工作大多集中于句内关系及简单实体对关系,而针对文档级关系抽取及重叠关系抽取的研究目前仍然面临两方面的挑战:(1)在文档级关系抽取中,关系对应的实体对通常跨越多个句子,如何精准地统一实体信息及多个句子语义信息的特征表示仍需探索;(2)在重叠关系抽取中,多个三元组交叉重叠情况复杂,如何根据语义信息准确地识别出不同的关系三元组仍是难点。在实际的应用场景,跨句子及重叠关系情况都较常见,如何从这些复杂场景中抽取关系事实显得尤为重要。针对上述问题,本文分别对文档级关系抽取和重叠关系抽取展开探索,主要工作如下:1.提出了一种多粒度关系抽取模型MGRE:该模型充分融合了实体级、句子级和文档级等多个粒度的语义信息,能够更好地表征文档中实体及各个句子间的语义交互。首先,在实体级语义信息构建中,针对传统最短依存路径方法只是将实体对信息作为路径序列的一部分进行特征抽取,而无法区分实体间语义差别的问题,本文借鉴了TransE模型的翻译思想,对于通过最短依存路径获取的头尾实体表示,利用翻译策略进行融合,以获得实体对间的关联信息。然后,在句子级语义信息构建中,本文使用CNN网络对各个句子进行语义特征抽取。最后,对于句子级网络层获取的多个句子级特征向量,通过注意力机制将其融合为文档级语义特征,并进一步与实体级语义信息进行融合,完成了文档信息及实体对信息的有机统一。公开数据集上的实验结果表明,本文方法在文档级关系抽取任务上取得了较好的抽取性能。2.提出了一种基于指针标注的三阶段关系抽取模型TSRE:该模型主要包括关系分类、头实体标注和尾实体标注三个阶段的工作。首先,针对重叠关系抽取中三元组交叉重叠问题,关系分类阶段将文本中的三元组按照关系类别划分为多个简单的小集合,降低了后续实体识别的复杂性。然后,在头实体标注和尾实体标注阶段,采用指针标注策略,通过头尾指针抽取任意跨度的实体。模型的三个阶段层层衔接与递进,每一个阶段抽取出的三元组元素,都将会作为前置条件输入到下一阶段的网络中,充分融合实体及关系之间的交互信息,很好地提升重叠关系抽取的性能。实验结果表明,本文的方法在Du RED和ICRED两个数据集上都取得了最佳的抽取性能,在重叠关系抽取任务上的性能优于现有的其它模型。
其他文献
研究背景与目的苯(Benzene,C6H6)是一种重要的环境污染物,主要来自于室内装修的涂料、有机溶剂、汽车尾气和烟草燃烧等。长期低水平苯暴露可导致慢性苯中毒,可引起严重的血液系统的损伤,如全血细胞的减少,严重者可导致骨髓异常增生综合征和白血病。苯通过不同途径进入机体后,经过一系列代谢,最后在骨髓生成终致癌物1,4-苯醌(1,4-Benzoquinone,1,4-BQ)。研究发现在苯代谢过程中可产
电站锅炉超低排放改造后,SCR氨逃逸造成下游空预器蓄热板表面产生硫酸氢铵(NH4HSO4,简称ABS)积灰,这类积灰不同于松散性积灰,其粘性极强,因此传统的飞灰沉积模型不适用于ABS粘结性积灰。此外,对于ABS粘结性积灰的实验研究多集中在ABS对飞灰颗粒的影响机理研究。因此,本文分别通过数值模拟和实验的方法研究了蓄热板表面的积灰特性,进而预测空预器运行时ABS积灰位置及积灰强度,对指导空预器有效吹
危险驾驶行为是导致交通事故的重要原因。监控驾驶人行为,在危险驾驶发生前进行预警,对减少事故发生率有着至关重要的意义。现有的计算能力以及数据采集设备已经可以实现实时采集数据并计算分析,使得事前预警成为现实。驾驶人在驾驶车辆过程中,当出现情绪失控会导致驾驶变形。现有研究主要聚焦于不同情绪下的驾驶特性,很少有研究将情绪作为行为预测的特征。因此,本文通过融合驾驶人面部表情数据和车辆运动数据预测驾驶人的驾驶
次同步振荡(Subsynchronous Oscillation,SSO)是风电并网系统中存在的重要稳定性问题。国内外目前已发生多起由风电引起的重大SSO事故。由风电场引起的SSO,可能会造成风电场设备损坏、引起大面积新能源发电机组脱网、诱发附近火电机组轴系扭振等,严重影响电网稳定。因此有必要对风电并网中的SSO进行精准辨识并及时定位,为进一步施加控制措施提供依据。本文围绕风电并网系统的SSO问题
噪声性听力损失(NIHL)是因接触噪音而导致的进行性感音神经性听力损失。大约16%的成年人听力损失与工作场所的噪声暴露有关,职业噪声性听力损失是世界范围内最普遍的职业病,已成为一个全球性的公共卫生问题。并且由于治疗效果不佳,加强噪声性听力损失病因学和发病机制的研究,筛选可靠的预测噪声性听力损失发生发展的生物标志,已经成为我国职业病防治研究领域的重点。基于人群数据的流行病学研究和噪声聋动物模型的相关
近年来,随着计算机和通信技术的飞速发展,大规模传感器网络、物联网系统得到了广泛的应用。随之产生的海量且空间分布广泛的数据对优化算法提出了更高的要求,这使得依托于信息交互、具有可扩展性的分布式优化算法成为当前研究的热点。其中,一个重要的方向就是研究分布式优化算法的加速机制设计,提升算法的收敛速度。当前的分布式优化算法加速机制设计大多建立在静态、无向的通信网络上,要求计算节点的通信必须是双向的,这使得
超分辨重建,包括尺度提升重建和去模糊重建,是指从低分辨或模糊图像中逆向重建为清晰的图像,可以应用于高清视频、医学影像、安防、计算摄影等多项领域,部分时候也承担着计算机视觉高维应用的前置预处理工作,如目标检测与分割中的去模糊,文字识别中的文本增强和网纹去除等。大部分基于深度学习的超分辨图像重建方法是根据经验及多次实验手工设计的,这种方式存在的问题在于,不同的网络需要在不同的超分辨场景下进行训练,网络
随着知识工程领域的应用不断地出现,对本体的研究在学术界和产业界也广泛开展。本体构建的活动逐渐增多,但是构建出来的本体质量相对有很大差距。本体的开放性使得每个人都能够发布自己的本体数据,而且现如今也有通过对互联网数据自动筛选完成本体构建的案例。为了使得构建的本体具有一定的可用性,本体评估在本体工程周期中是不可或缺的一部分,不管是在本体的构建、演化、管理、应用中的任一过程,都涉及到本体评估这一活动。本