基于图同构网络和指针生成网络的开放型三元组抽取研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:tinnagirl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识图谱是一种高度结构化的语义知识库,在语义检索、个性化推荐等领域有着广泛应用。三元组抽取作为知识图谱构建过程中至关重要的步骤,目的是从文本数据获取两个物理事实之间存在的客观联系。面向限定领域的三元组抽取方法需要预先定义所有实体和关系类型,使用机器学习或深度学习的方式在大规模数据集上训练分类模型。然而,在实际应用中实体和关系类型都会随着文本量的自然增长而增加,预先定义所有实体关系类型较为困难。对此,研究者们提出了开放型三元组抽取任务,尝试利用句型结构从句子中直接提取出三元组结果,使用句子上下文中某一具体词汇或短语来表示两个实体间的联系。依据方法类型,开放型三元组抽取可以区分为判别式方法和生成式方法。其中,判别式方法通过人工或迭代的方式提取模板,并使用模板对候选三元组进行匹配。然而,判别式三元组抽取方法存在泛化能力弱的问题,只能抽取已归纳出模板的句型结构。生成式方法将三元组看作是一个序列,以序列生成的方式实现三元组抽取。大多数生成式方法从语义理解的角度训练模型,然而句子中往往存在对句子理解没有帮助的语义信息,会对模型效果带来负面影响。同时,句子中的依存弧类型信息存在难以建模的问题,近年来研究者们对不同类型的依存弧进行了相同建模,忽略了依存弧类型信息。对此,本文的主要研究内容如下:(1)针对判别式方法泛化能力弱的问题,本文提出了基于图同构网络的判别式三元组抽取模型。首先,设计了图同构模块,用于提取句子中依存结构特征和部分语义特征,将模板和候选三元组的树结构转换为特征向量,实现模板匹配过程的可计算化。然后,构建了基于阈值判断的邻近算法,计算模板向量与候选向量之间的距离,进而判断候选三元组是否成立,使模型拥有更强的泛化能力。最后,本文使用该模型对大规模网络文本进行抽取,为生成式三元组抽取方法的研究提供高质量的数据集。在DuIE数据集上进行实验,该模型比CORE、UnCORE等基线模型在F1值上提高超过6%,证明了该模型具有较强的泛化能力。(2)针对生成式方法受部分无用词义影响和难以对依存弧类型建模的问题,本文提出了融合依存句法和指针生成网络的生成式三元组抽取模型。首先,根据词性结果对句子进行泛化处理,将句子中的专有名词替换为对应标签,去除无用词义的影响。然后,在词嵌入的过程中加入了词性信息,并使用键值记忆网络对句子依存结构中边的信息进行建模,帮助模型理解句子的结构特征。最后,利用指针生成网络迭代生成三元组结果,增加模型从输入中生成词汇的概率。在DuIE数据集和自制数据集上进行实验,该模型的精确率最高达到了79.76%,F1最高达到了67.52%,证明了该模型的有效性。(3)设计了一个知识图谱构建系统,实现自动化构建知识图谱的功能。通过爬虫定时获取大量网络数据,并将上述开放型三元组抽取工作应用到知识图谱自底向上的构建过程中,提供了知识图谱检索的功能。
其他文献
学位
<正> 酸雨是当代世界上面临的主要环境问题,并已成为人们普遍关注的公害之一。近年来,我国各地区对大气污染和降水化学成分的分析表明,我国南方地区酸雨出现的频率大大高于北方地区。由于城市工业区排出的二氧化硫、氮氧化物等污染物,不只污染城市空气,而且可随着气流输送到很远的距离。加之污染物可以作为凝结核,在云滴、雨滴形成的时候,就可能具有酸的因素。云内的成雨过程,以
期刊
随着教育科研人数激增以及学术活动的多样化发展,网络中文献的数量庞大且增长迅速,因此各种在线学术平台相继构建。发表、检索和阅读学术文献是学校科研、教学、管理和交流工作的重要组成部分,学术平台也逐渐成为智慧校园建设的重要基础平台。在高校中,重名人员日益增多,这些大量重复的姓名会极大降低学术平台中文献检索的效率,并且可能检索出错误的数据,给高校知识图谱的构建带来极大不便。姓名消歧系统凭借维护成本低、检索
学位
随着人工智能和深度学习技术的发展,复杂场景下的文本检测识别技术逐渐成为计算机视觉的热门研究领域。在工业运输环境中,员工需要驾驶叉车运输货箱到达指定仓库,而由于人工原因经常会出现错看货箱编码、漏送货箱等情况,导致运输效率低下。因此本文从复杂场景下的文本检测识别技术入手,通过文本检测识别技术识别货箱上的编码,从而帮助员工更清晰、更直观地了解货箱编码。此外,在实际工厂环境下,存在光线昏暗、文本不规整、设
学位
随着互联网的发展,推荐系统作为一种可以满足用户个性化需求的技术,受到了广泛的关注与研究。大规模且高质量的数据对推荐系统的发展至关重要,机构和企业通过数据共享提升推荐准确率,但这种方式存在着数据隐私安全的问题。与此同时,用户保护自身隐私数据的意识逐渐觉醒,相关法律法规也日益完善,如何在保护数据隐私的前提下调度多个参与方共同训练推荐模型是亟需解决的问题,具有重要的研究价值和应用前景。近年来,面向隐私保
学位
多目标优化问题(Multi-objective Problems,MOPs)是现实世界中极为常见的难题,因为其多个目标之间往往互相冲突,无法同时达到最优。多目标优化算法(Multi-objective Optimization Evolutionary,MOEA)是解决MOPs的重要方法,其中基于分解的多目标优化算法(Decomposition-based Multi-objective Opti
学位
继我国全面打赢脱贫攻坚战,我国的“三农”工作重心发生了历史性转移,我党开始全面部署实施乡村振兴战略。自乡村振兴提出以来,党中央在乡村振兴政策制度供给上不断发力,促使大量公共资源开始向乡村领域倾斜。在权力层层下放过程中,乡村振兴领域难免会出现资金闲置浪费、项目建设偷工减料等诸多问题。为了更好地监督乡村振兴政策的贯彻落实,国家审计机关高度重视并积极开展乡村振兴政策跟踪审计实践。然而,乡村振兴政策部署尚
学位
七普与六普数据相比,临沂市呈现人口规模增长、老龄化加剧、家庭规模小型化的趋势。分析2010—2020年临沂市的人口结构和住房需求数据,用主成分分析和多元线性回归模型相结合的方法,结论显示:人口总量、收入、平均家庭户规模对临沂市住房需求影响最大。据此提出了临沂市住宅市场供需平衡发展的对策和建议。
期刊
患有色觉缺陷(CVD)的人难以区分颜色,全世界约有2亿人受到色觉缺陷疾病的影响。生活中最常见的色觉缺陷类型是L椎体细胞缺陷和M椎体细胞缺陷,我们通常称为红绿色盲。由于L椎体细胞缺陷和M椎体细胞缺陷是由性染色体X染色体上的基因决定的。因此,男性比女性更容易患上这种遗传性疾病,且目前的药物无法治愈。这种疾病会导致可识别信息的丢失,从而严重影响日常生活,甚至可能使他们面临危险。为了帮助CVD患者改善日常
学位
从单张图片中进行三维人体姿态与形状估计是计算机视觉中一个开放问题。由于图片天然缺乏深度信息,模型很难获取真实的深度信息。并且在真实场景中,遮挡问题普遍存在,导致人体可见信息不全。此外,对人体模型进行服装建模仍然是一个复杂问题。遮挡问题是人体姿态和形状估计任务中一个关键问题,其中遮挡包括人体的自我遮挡、物体与人的遮挡以及人与人之间的遮挡。为此,本文提出了一个新的框架,它整合了可遮挡感知的轮廓和2D关
学位