基于局部敏感哈希的实例匹配技术研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:yy030412
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,数据与日俱增,用户更加关心信息获取的实时性、准确性和相关性,而面向文档的互联网已无法满足当前的需求。语义网是一个面向数据的网络,它把所有的数据都关联在一起,使得用户能够通过它更快地获取到最准确、最相关的信息。近年来,语义网的数据集迅猛增长,但由于并没有统一的模式标准,很多新发布的数据孤立存在,因此数据集成的需求越来越重要。本文选择实例匹配作为研究目标,旨在从两个语义网数据集中把描述相同事物的实例提取出来。  本文分析并总结了实例匹配技术在国内外的研究现状,列举了一些成熟的实例匹配系统,在此基础上选择目前数据挖掘领域高度关注的一种处理海量高维数据相似性发现的方法——局部敏感哈希作为主要基础,对实例匹配技术进行深入研究,主要工作包括:  第一,对齐两个语义网数据集的模式信息,分析数据集的一些统计特征,计算谓语覆盖率和谓语辨别率来筛选重要谓语,并通过宾语的Jaccard距离实现谓语匹配。  第二,用向量空间模型表示实例的数据集,借助局部敏感哈希算法来实现对相似实例的快速提取,详细介绍了将实例的空间向量转化为最小哈希签名矩阵的过程,设计并实现了面向最小哈希及余弦距离的局部敏感哈希方案,同时给出了局部敏感哈希的分布式实现策略。  第三,根据谓语匹配置信度对局部敏感哈希算法得到的实例候选集进行精炼验证,计算得到最后的实例匹配结果。  本文在真实的数据集上进行了大量的对比实验,对主要工作进行了验证。实验结果表明本文提出的实例匹配方案能够快速实现对两个数据集的实例匹配,在性能方面有显著的提升,同时借助Spark分布式框架,该方案能够支持对海量数据的处理。
其他文献
煤矿巷道地质素描图是指导煤矿日常安全生产的一类重要的专业基础图件。目前煤矿生产企业在编制井下巷道地质素描时主要采用手工制图方式。这种方式不仅存在着绘图速度慢、绘
随着计算机应用的普及,尤其是30年来数据库技术的广泛使用,以及近10年来互联网应用的不断深入,数据的累积正以爆炸性的速率发生。人们已经评估出世界上信息的数量每两三年翻
现有信息网络基本上是一种网络支持一种服务的模式,无法满足网络和服务的多样性需求。一体化网络引入接入标识和交换路由标识,建立接入标识和交换路由标识分离映射机制,这种标识
随着计算机和网络技术的发展,信息安全成为愈加重要的一个研究领域。传统的信息安全技术包括防火墙和入侵检测等,防火墙技术能够隔离非法访问,但一旦被攻破即失效,而入侵检测
从计算机诞生之日起,资源的稀缺性便一直困扰着计算机专家们,资源分配问题亟待解决。传统的资源分配方法大多采用工程控制手段,通过进行全局的计算,将资源分配到最适合的地方
蛋白质结构研究是生命科学的基础和重大核心问题之一。蛋白质的结构决定了它的功能,因此进行蛋白质结构预测对于深入了解蛋白质的功能,以及分子设计、生物制药等领域都有着很
随着经济的不断快速发展,我国的大气环境越来越不容乐观。近年来全国多地频繁出现雾霾天气,严重威胁到人们的生产生活和身体健康。大气污染源解析技术是分析污染物来源并计算污
随着大规模数据库的广泛使用和Internet的迅速发展,全球范围内数据库中存储的数据量迅速增大。如何从海量的、多样的数据中挖掘潜在的、有用的信息,成为当前知识发现的主要研
目前,蚁群算法和数据挖掘技术研究已成为国际智能计算领域的研究热点和前沿性课题。本文的主要研究目是:进行蚁群算法、数据挖掘技术、聚类分析技术研究;进行蚁群算法在聚类
随着基于可重构器件的快速发展和使用,基于FPGA的可重构技术逐渐成为国际上嵌入式计算领域中的一个新热点。由于可重构器件既有硬件电路高效计算的优良性能,也具有多次编程、易