融合结构信息的小样本关系抽取技术研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:b329066975
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网上存在着大量具有重要价值的非结构化文本数据,需要使用信息抽取技术将其转换为结构化知识。关系抽取是信息抽取技术的基础任务之一。关系抽取任务旨在将非结构化的自然语言文本转化为结构化的三元组,以便于人们使用计算机进行高效地处理、存储和检索。基于有监督学习的关系抽取方法要求具有足够多且完全标注的训练数据,但现实中往往缺乏大量人工标注数据。尽管远程监督模型可以通过对齐知识库获取大量数据,其依然无法从本质上解决样本分布的长尾问题。针对上述挑战,本文在小样本场景的设定下,从两个角度分别提出了两种方法进行研究:(1)融合结构信息的小样本关系抽取方法。为了解决真实场景中样本分布的长尾问题,针对小样本场景的特点,此模型使用一种非参数估计方法。该非参数估计方法认为每个类都存在一个类原型,并通过预先定义的度量函数来计算查询样本与类原型之间的相似度。由于通用的特征提取方式往往会忽略句子的结构信息,此模型对句子的依存关系树进行建模,利用图卷积网络从依存关系树中提取结构信息,并将该结构信息融合到小样本关系抽取模型中。(2)基于动态度量的小样本关系抽取方法。由于非参数估计方法中的度量函数是人为规定的,该方法并不能非常准确地表示相似性,无法更好地预测实体对之间的关系。为了解决上述问题,基于动态度量的模型使用深度神经网络学习一个非线性度量函数,从而能够对查询样本与支持样本之间的相似度进行更全面的度量。此外,为了进一步验证结构信息对小样本关系抽取任务的有效性,本文也将句子的结构信息融合到基于动态度量的模型中。为了验证上述两种算法的效果,本文在领域内广泛使用的公开英文数据集上进行了大量实验与分析工作。实验结果表明,本文提出的两种算法均能使小样本关系抽取的性能有所提升,在一定程度上有效地缓解了样本分布的长尾问题。此外,本文提出的方法参加了 2018年TAC药物相互作用关系抽取比赛,获得了综合成绩第一名,并将此方法应用在了中国工程科技知识中心建设项目的知识计算引擎平台中。
其他文献
肝硬化是由一种或多种病因所致的肝脏长期或反复的弥漫性损害。肝脏逐渐变硬、变小,表面可见大小不等的结节。病理组织学有广泛的肝细胞炎症、坏死,结缔组织增生,假小叶和再生结
目的:分析和探讨妊娠糖尿病(GDM)孕妇血清同型半胱氨酸(Hcy)与叶酸(FA)及血脂的相关性。方法:选择从2018年1-12月在我院接受治疗的45例GDM孕妇为观察组,选择同期在我院接受产
瑞典、俄罗斯等地保存有大量俄罗斯彼得大帝军队所用的军旗,这些军旗中的大部分是用17世纪的中国丝织品制成的。这批丝织品是目前存世最为集中的中国明末清初时期的丝绸实物
目的探讨早期康复护理在对于老年脑梗塞患者治疗过程中起到的辅助治疗效果以及对于改善生活质量的影响。方法选取我科收治的老年脑梗塞患者70例为本次对比试验研究对象,将患
法律理论是一个具有特定含义和特定意义的法学理论范畴,作为学科意义上的法律理论是与法哲学、法社会学等并列的法学理论学科;作为范畴意义上的法律理论则是指与抽象性的法学
本文以甲基丙烯酸十八烷基酯(SMA)、甲基丙烯酸异辛酯(EHMA)和苯乙烯(St)作为单体,采用悬浮聚合法合成了一系列低交联度的高吸油树脂。使用统计学分析方法,采用Box-Behnken和Central Composite模型分别设计和优化了基础影响因素和深度优化因素,并通过向树脂中掺杂多壁碳纳米管(CNTs)制备了一种复合吸油材料,以达到优化树脂吸油性能的目的。确定了最佳的合成条件:引发剂(AI
两化融合是由我国政府制定的、长期发展的战略目标,是信息化与工业化的深度结合。两化融合管理体系则是一套完整的为企业实现两化融合目标的管理方法。它将企业内部数据、信
采用了强化氧化实验条件,以过氧化值为指标,研究了维生素C、维生素E、柠檬酸三钠、甘草抗氧化剂对共轭亚油酸甘油酯氧化稳定性的影响.由过氧化值的一元线性回归方程得出它们对共
肿瘤细胞发生发展过程伴随细胞微纳结构特征的改变,显微成像技术的快速发展使得单细胞水平肿瘤特征的获取、诊断和治疗成为可能,并成为当前肿瘤医学发展的主要方向之一。本文
随着互联网信息技术的创新发展,经济全球化有了飞跃式的发展,跨境电商专业的出现能够有效促进我国对外贸易发展。本文主要分析了现阶段我国跨境电商行业的主要发展情况,针对