面向知识图谱构建的实体对齐技术研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:lygcctv
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识图谱是知识组织的一种有效方式,各专业领域通过构建垂直领域知识图谱进行知识管理。随着知识规模日益增长,多源异构知识成为知识图谱的主要数据来源。多源异构知识需要保证知识的准确性和正确性,共指消解技术和实体对齐技术可以有效进行实体消歧,以实现构建知识图谱的目标。目前,共指消解技术和实体对齐技术虽然取得不少研究成果,但还有不少难点尚未解决。例如,多数端到端共指消解模型聚焦于文档结构信息而忽略文档中的句法和语义信息,导致知识利用率下降;知识图谱嵌入表示没有充分利用实体属性和关系信息,导致知识图谱建模时信息缺失;知识图谱中等效实体的结构异质性很少被提及,导致知识图谱实体对齐的准确度下降。针对以上问题,本文的研究内容包括:(1)针对多数共指消解模型忽视句法和语义信息,导致文档利用率低等问题,为整合文档中的句法和语义信息,提出一种基于语义嵌入网络的共指消解模型。该模型主要包括两个阶段:第一阶段采用句法解析器和SRL解析器提取句法和语义特征,并根据其特征类型构建语义共指图;第二阶段采用GAT选择性地将句法和语义特征在语义共指图中传播,并通过注意力机制提取最相关的信息。(2)针对知识图谱嵌入表示时知识利用率低、导致建模时向量表达力差等问题,提出一种联合实体属性嵌入和关系嵌入的知识图谱嵌入表示方法。该方法主要包括两个阶段:第一阶段采用预训练词向量获得实体名称的初始嵌入,再使用BERT语言表示模型获得实体属性嵌入,并根据初始嵌入计算得到关系嵌入;第二阶段首先将第一阶段产生的嵌入进行信息集成得到实体嵌入表示,随后通过联合学习进行迭代更新。(3)针对知识图谱中等效实体网络结构异质、导致实体对齐准确率低等问题,提出一种基于匹配图的实体对齐方法。该方法主要包括两个阶段:第一阶段对中心实体的单跳邻域进行采样,提取出信息量较大的单跳邻居;第二阶段利用第一阶段采样得到的单跳邻居为中心实体构造匹配图,通过匹配图相似度计算执行实体对齐任务。最后本文提出的方法分别在OntoNotes5.0、DBP15K和DWY100K数据集上进行实验验证。实验包括共指消解实验和实体对齐实验。共指消解实验主要包括文本级语言模型、语义共指图构建和共指链接计算三个内容,采用MUC、B~3和CEAFΦ4的平均F1值作为主要评估指标。实体对齐实验主要分为联合嵌入表示、单跳邻域采样和匹配图对齐三个过程,采用Hits@1和Hits@10值作为主要评估指标。实验结果表明,本文提出的方法性能相较于先前研究有一定提升,对知识图谱构建任务有积极作用。
其他文献
行人重识别是利用计算机视觉技术从跨域视角候选图像数据集或者非重叠监控视频序列中检索出与指定行人具有相同身份信息行人的过程。行人重识别技术在行人轨迹跟踪以及智能安防领域发挥着重要的作用。受到拍摄设备以及环境中各种干扰因素的影响,使得行人重识别任务在实际应用中面临诸多挑战。因此,提取更具有鲁棒性和高区分度的行人特征成为了行人重识别研究领域的重点课题之一。针对这些问题,本文从两个不同角度提出了优化行人重
学位
现阶段,人工智能已经广泛而又深刻地影响着人类的生活,机器学习作为其代表性技术,通过数据来提升模型的性能以达到自主决策的目的。然而,在机器学习算法的整个生命周期内,都会存在着各种各样的安全隐患导致人工智能系统面临风险,这些缺陷一旦被利用可能会造成极为严重的影响,例如不够鲁棒的模型面对扰动图像可能会做出错误的决策导致智能驾驶汽车失控,深度学习框架中的漏洞被攻击可能会使系统无法正常运行等等。算法安全评估
学位
目的 比较不同干燥方式黄芪提取物的理化性质及HPLC-ELSD指纹图谱。方法 水提醇沉法制备提取液后,分别采用常压干燥法、减压干燥法、冷冻干燥法制备提取物,水溶法、称重法、筛分法测定其溶解性、吸湿性、粒径分布特征,HPLC法测定黄芪甲苷含量,进行平衡溶解度、稳定性评价。建立提取物HPLC-ELSD指纹图谱,指认特征成分,研究不同干燥方式对特征成分的影响。结果 常压干燥、减压干燥、冷冻干燥提取物的溶
期刊
伴随着互联网的蓬勃发展,我们早已处于“信息过载”时代,从海量数据中快速获取有效信息变得愈发重要。因此,推荐系统作为解决“信息过载”难题的有效方式,具有重要的研究意义。随着深度学习技术在推荐系统中的广泛应用,以及学者们逐渐开始将社交信息作为推荐系统输入特征之一,在一定程度上解决了传统推荐方法的泛化能力弱和数据稀疏问题。但二者还存在一些局限性,一方面,现有的基于社交特征的推荐方法大多通过挖掘用户的历史
学位
随着现代军事领域向无人化、智能化方向发展,防空作战体系武器系统的决策能力、系统信息处理能力、高精度计算等要素发挥的作用逐渐得到体现。其中武器系统的决策能力因制约战局的变化,受到许多研究者的关注。随着一体化防空作战模式发展,舰对空、空对空与地对空之间形成作战体系,将各单位彼此联合是目前相关领域下的发展趋势。武器系统攻击决策中面临多种“选择”、“判断”等问题,包括武器选择、目标分配、发射判决等。本文针
学位
多目标优化问题广泛存在于现实生活中的各行各业,与我们的生活密切相关。近年来,诸多学者提出了许多优秀的算法框架解决多目标优化问题,取得了不错的效果。然而,这些算法在解决大规模多目标优化问题时,求解效果明显下降。这主要是因为随着问题决策变量维数增加,搜索空间急剧增大。随着社会的发展,现实世界的问题越来越复杂,建立的模型的决策空间维度也随之增多,因此,研究和设计解决大规模多目标优化问题的高效算法是具有重
学位
在大数据时代背景下,人们时时刻刻都在产生数据信息。而这些信息在各行各业中都有着很大的经济价值,比如银行、通讯、金融行业等等,同时还衍生出了百度智能云、广告推荐等服务平台,给人类的生活带来了非常大的便利。另外在近几年,大数据还被应用到了机器学习领域。在机器学习领域中,模型训练数据集的使用往往存在着许多隐私泄露问题。随着科技的发展,人类对机器学习模型的性能的要求也越来越高,所需的训练数据量越来越大,因
学位
伴随着计算机技术的快速发展,计算机运行监控系统也在越来越多的企业中得到实际应用,运行监控系统通常由监控中心软件和若干部署在外站的数据采集设备两部分组成。近些年来,航天等领域的运行监控系统在实际应用中暴露出了诸多问题。其中由于系统中的数据采集设备往往会被安放在一些网络基础受限的地方,经常面临网络带宽较小、网络时断时续等情况,导致采集到的大量监控数据不能及时传输到监控中心进行处理。此外,随着系统中数据
学位
随着测序技术的不断进步和发展,针对不同物种及组织的蛋白质组测序已经为国内外研究者提供了多样化的蛋白质序列数据库。可用蛋白质序列数量的不断增加,也让对于蛋白质生物学以及蛋白质相关下游任务的研究向数据驱动转变,机器学习和深度学习方法在蛋白质组学相关任务中被广泛应用。如何从蛋白质序列中挖掘得到蕴含结构和功能语义信息的蛋白质向量表征,已经是国内外研究者关注的热点。另外,海量的蛋白质序列数据背景下也出现了另
学位
随着科技水平的迅速发展,越来越多的设备产品被生产使用,用户面临的故障问题也日益增多。由于故障处理过程中会产生大量工单案例,因此研究基于历史故障库的案例推荐可以为用户提供高效、准确的故障处理途径,在故障诊断领域具有重大研究价值。针对工单案例中存在的信息冗余、内容杂乱等现象,现有的研究大多基于文本的基础特征进行匹配,例如词共现和词频等统计信息,缺乏语义层面的理解,导致案例推荐存在准确率不高、根因分析不
学位