面向亲属关系知识图谱的数据降噪与可视化研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:sb871697914
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识图谱(Knowledge Graphs,KGs)具有强大的语义处理和开放互联的能力,已被广泛应用于Web检索、推荐系统、知识问答等领域中。当前,由于信息抽取、知识融合和知识加工等技术尚存在不足,使得构建面向人物关系特别是亲属关系的大规模知识图谱充满挑战。此外,在知识图谱的构建过程中,不可避免地会产生大量噪声数据,如何快速处理数据噪音并实现用户的定制化信息展示等问题也需要进一步研究。家谱数据具有海量、多源、异构、自治的特点,且包含了丰富的结构和语义信息。将家谱数据构建为亲属关系知识图谱是实现跨姓氏家谱的大知识挖掘和推理服务、分析姓氏之间的关联以及姓氏起源、变迁等行之有效的方法之一。本文主要关注面向亲属关系知识图谱数据(即大规模家谱数据)的降噪与可视化问题研究,主要研究工作如下:(1)本文提出了PKSM(Prior-Knowledge and Subgraph-Matching for Knowledge Graph Refinement)算法,结合先验知识和精确子图匹配的方法实现亲属关系知识图谱降噪。该方法首先利用先验知识构建家谱领域先验知识库,并将其分别转化为相对应的家谱噪音模式子图,然后利用优化后的精确子图匹配算法实现噪音数据识别和反馈;在亲属关系数据集上的实验结果表明,该算法能有效提升亲属关系知识图谱数据降噪精度并减少数据降噪时间。(2)本文提出了CEPV(Customized information Extracting,Processing and Visualization tool)工具,在数据噪声和用户定制可视化需求的条件下,解决了如何从大规模知识图谱中快速抽取、处理并实现定制化信息展示问题。首先,CEPV采用批量数据抽取规则将用户指定数据从海量、复杂、异构、碎片化的图数据库中抽取出来并按指定规则存储;其次,在数据处理过程中添加容错机制和属性判断规则,尽可能保证数据处理正确性;最后,CEPV利用数据可视化工具将处理完成的数据按用户定制需求展示给用户。实验验证CEPV可有效满足大规模亲属关系知识图谱数据的用户定制可视化展示需求。
其他文献
为解决长庆油田油气井直井(定向井)压裂改造施工过程中火力射孔作业耗时较长、高压井下钻风险大、特殊区域火力射孔作业受限等影响生产效率的实际问题,结合常规水力喷射压裂
正交频分复用系统具有抗干扰能力强、抗衰弱能力强、频谱利用率高等优点,因而在无线电信息传输方面有着广泛的应用。但是在当前OFDM技术的发展中,也存在着一个重要的瓶颈问题
本文研究MIMO双向中继协作通信系统中不可靠中继网络的安全问题。在中继通信网络中,中继所连接的各个节点具有不通的安全等级。为了能转发所有节点的信息,中继节点的安全许可
我国是油菜大国,无论是种植面积还是产量均位居世界前列。为了方便筛选角果不易炸裂的油菜品种,本文对油菜角果的抗裂角性表征方法进行研究分析。以随机碰撞法为基础,研制了油菜角果抗裂角性碰撞检测装置,分析了油菜角果的含水率、尺寸大小对角果抗裂角性的影响,并与悬空压裂法进行对比分析。针对油菜联合收获机田间作业时割台损失率高的问题,本文结合油菜的生物特性,对割台拨禾轮的运动轨迹和工作参数进行了分析及优化,设计
超宽带天线在通信系统中有着重要的运用,其中一种典型的设计形式即为加脊喇叭天线,这种天线被广泛地应用于生活的许多方面,例如:车载雷达、数字通信、测量测距以及安检成像系
大规模MIMO(Massive Multiple Input Multiple Output)技术是蜂窝无线通信系统的关键技术之一,采用大规模天线阵列技术使蜂窝系统的信道容量显著提升。两阶段预编码技术是一
数字化改革是浙江立足新发展阶段、贯彻新发展理念、构建新发展格局的重大战略举措,是全面深化改革的总抓手。春节上班后,全省数字化改革大会和全省人大数字化改革工作推进会
随着网络时代的发展尤其是在在线社交的推动下,短文本数据逐渐成为一种主流的文本形式。与传统的文本形式相比,短文本的文本长度较短而数据规模大,因而高维稀疏问题是在进行
随着中国基础建设的快速发展,安化县公路建设随之全面展开。全县建成通车公路总里程近四十年间增长10倍,超过一万公里,“十三五”期间,安化县将进一步加大公路基础设施建设,
迄今为止,尽管传统计算机的CMOS技术与冯诺依曼系统已经得到了长足的进步与发展,但是目前越来越繁复的信息数据爆炸问题使得传统技术面临着巨大的挑战。在这种大环境背景下,