利用在线百科构建知识图谱任务中的槽填充技术研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:hyron2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识图谱使互联网上海量杂乱的信息得以有效的组织和利用。在线百科中蕴含的大量知识以及结构化与半结构化内容使其成为知识图谱构建任务最常用的知识来源之一。然而现有基于在线百科构建的知识图谱大多仅从百科结构化和半结构化的内容中获取知识,忽视了非结构化的百科文章中蕴含的大量知识。从非结构化文本中抽取指定实体的预定义属性值是槽填充任务的研究内容。应用于知识获取的槽填充现有工作目前以关系分类方法为主,缺乏对非实体类型槽值的填充能力。并且现有相关工作所用数据集以新闻文章较为常见,互联网上尚未出现基于在线百科文章构建的槽填充数据集。为解决上述问题,本文对利用在线百科构建知识图谱任务中的槽填充技术进行了研究,具体来说,主要包括以下三点内容:1.研究使用在线百科文章构建槽填充数据集的方法,并依此法构建了一个人物类实体槽填充数据集。该方法包括结合用户需求的模式层设计方法和一个用于标注数据的页面工具。2.研究适用于在线百科数据集的槽填充方法。本文提出基于序列标注的槽值识别模型,将整个文档而非单个句子作为输入,根据单字与主语的相对位置计算注意力,使用句子位置计算标签权重,从而适应在线百科文章的特点。3.对方法效果进行评估。本文设计了多组对比实验验证本文方法的有效性,对本文方法在非实体类型槽值上的填充能力和槽值边界的判定能力做了评估分析。总体来说本文提出了一个适用于从在线百科文章中获取知识的槽填充算法。其中基于序列标注的模型使算法能够抽取非实体类型槽值,主语位置注意力、句子位置权重和文档级别的评分保证了算法在百科数据集上的效果,这是本文的主要创新点。此外,本文提出结合用户需求的数据集模式层设计方法也区别于现有方法,提高了模式层的实用性,本文构建的槽填充数据集填补了相关工作缺少基于在线百科文章数据集的空白。
其他文献
我国水能资源可开发容量及高坝在役数量和坝高均居世界首位,在我国水电开发中,混凝土高拱坝是水工建筑物中的重要坝型之一。服役期高拱坝受动荷载与不确定环境因素作用形成疲
四旋翼无人机在军事和民用领域得到了广泛的应用。然而,四旋翼无人机是一个非线性、欠驱动、强耦合的系统,而且在实际飞行过程中还会受到不确定的紊流风场干扰,这些因素均给
医药行业作为与人类生活至关重要的领域,其中的矛盾一直存在。昂贵的药品费用与不完善的医保政策使得低收入乃至中等收入人群的健康问题无法得到及时的治疗和保障。对于我国的医药专利领域,可以借鉴《印度专利法》的相关制度规定,从而平衡药品专利和公共健康之间的冲突。《印度专利法》第3节(d)条款(以下简称3(d)条款)已经对药效作为药品专利的授权条件具有相关规定,并且“格列卫案”也作为了此项规定下的一个典型案例
特征选择是指从原始特征中选择出一些最有效特征以降低数据集维度的过程,其能够降低模型复杂度,减少过拟合的风险。近年来,关于特征选择的算法研究有很多,其中多核学习特征选
压电泵因精密控制、无电磁干扰的优点在泵领域内脱颖而出,无阀压电泵不但包括这些优点,同时因结构简单、无阀体和泵体之间的磨损和造价低等独特的特点在压电泵领域中备受欢迎
近年来,空气质量问题成为人们关注的焦点,PM2.5以其粒径小、吸附能力强、滞留时间长、能够远距离传输等特点给人类健康带来严重危害。近地面空气质量监测站布设时间较晚且数
近年来互联网和通信技术的发展极大地促进了大数据和数据挖掘技术的成熟。随机森林作为数据挖掘中常用的分类算法,被广泛应用到各个领域,支撑各研究机构、商业组织、医疗机构
近年来,阻变存储器由于其结构简单、操作速度快、功耗低、读写速度快等优点而受到人们的广泛关注,成为下一代非易失性存储器的潜在候选者。Ⅱ-Ⅵ族化合物半导体CdZnTe薄膜材料具有铁电性能,可以作为阻变存储器MIM结构中的阻变层,获得新型阻变存储器。本文提出阻变CdZnTe薄膜的制备与开关特性研究,旨在获得性能优异CdZnTe薄膜存储器件,探究其开关特性的机理。本文以物理气相沉积技术为基础,采用射频磁控
箱涵是水利,公路,铁路等工程施工建设中被广泛应用的常用建筑物,主要分为沟埋式和上埋式。箱涵由于结构设计缺乏较合理土压力计算理论导致了高填土箱涵结构不安全或过分保守
紫色土广泛分布于我国南方地区,受当地气候条件和耕作方式等的影响,紫色土覆盖区特别容易被侵蚀,导致土壤营养成分流失。生物炭作为土壤改良剂,不但有利于农田土壤养分固持,