论文部分内容阅读
随着互联网技术的飞速发展,数据与日俱增,用户更加关心信息获取的实时性、准确性和相关性,而面向文档的互联网已无法满足当前的需求。语义网是一个面向数据的网络,它把所有的数据都关联在一起,使得用户能够通过它更快地获取到最准确、最相关的信息。近年来,语义网的数据集迅猛增长,但由于并没有统一的模式标准,很多新发布的数据孤立存在,因此数据集成的需求越来越重要。本文选择实例匹配作为研究目标,旨在从两个语义网数据集中把描述相同事物的实例提取出来。 本文分析并总结了实例匹配技术在国内外的研究现状,列举了一些成熟的实例匹配系统,在此基础上选择目前数据挖掘领域高度关注的一种处理海量高维数据相似性发现的方法——局部敏感哈希作为主要基础,对实例匹配技术进行深入研究,主要工作包括: 第一,对齐两个语义网数据集的模式信息,分析数据集的一些统计特征,计算谓语覆盖率和谓语辨别率来筛选重要谓语,并通过宾语的Jaccard距离实现谓语匹配。 第二,用向量空间模型表示实例的数据集,借助局部敏感哈希算法来实现对相似实例的快速提取,详细介绍了将实例的空间向量转化为最小哈希签名矩阵的过程,设计并实现了面向最小哈希及余弦距离的局部敏感哈希方案,同时给出了局部敏感哈希的分布式实现策略。 第三,根据谓语匹配置信度对局部敏感哈希算法得到的实例候选集进行精炼验证,计算得到最后的实例匹配结果。 本文在真实的数据集上进行了大量的对比实验,对主要工作进行了验证。实验结果表明本文提出的实例匹配方案能够快速实现对两个数据集的实例匹配,在性能方面有显著的提升,同时借助Spark分布式框架,该方案能够支持对海量数据的处理。