论文部分内容阅读
知识图谱(Knowledge Graphs,KGs)具有强大的语义处理和开放互联的能力,已被广泛应用于Web检索、推荐系统、知识问答等领域中。当前,由于信息抽取、知识融合和知识加工等技术尚存在不足,使得构建面向人物关系特别是亲属关系的大规模知识图谱充满挑战。此外,在知识图谱的构建过程中,不可避免地会产生大量噪声数据,如何快速处理数据噪音并实现用户的定制化信息展示等问题也需要进一步研究。家谱数据具有海量、多源、异构、自治的特点,且包含了丰富的结构和语义信息。将家谱数据构建为亲属关系知识图谱是实现跨姓氏家谱的大知识挖掘和推理服务、分析姓氏之间的关联以及姓氏起源、变迁等行之有效的方法之一。本文主要关注面向亲属关系知识图谱数据(即大规模家谱数据)的降噪与可视化问题研究,主要研究工作如下:(1)本文提出了PKSM(Prior-Knowledge and Subgraph-Matching for Knowledge Graph Refinement)算法,结合先验知识和精确子图匹配的方法实现亲属关系知识图谱降噪。该方法首先利用先验知识构建家谱领域先验知识库,并将其分别转化为相对应的家谱噪音模式子图,然后利用优化后的精确子图匹配算法实现噪音数据识别和反馈;在亲属关系数据集上的实验结果表明,该算法能有效提升亲属关系知识图谱数据降噪精度并减少数据降噪时间。(2)本文提出了CEPV(Customized information Extracting,Processing and Visualization tool)工具,在数据噪声和用户定制可视化需求的条件下,解决了如何从大规模知识图谱中快速抽取、处理并实现定制化信息展示问题。首先,CEPV采用批量数据抽取规则将用户指定数据从海量、复杂、异构、碎片化的图数据库中抽取出来并按指定规则存储;其次,在数据处理过程中添加容错机制和属性判断规则,尽可能保证数据处理正确性;最后,CEPV利用数据可视化工具将处理完成的数据按用户定制需求展示给用户。实验验证CEPV可有效满足大规模亲属关系知识图谱数据的用户定制可视化展示需求。