相似连接相关论文
为了解决大量重复数据导致MapReduce的混淆消耗过大及网络传输拥堵的问题,设计了一种基于MapReduce框架的相似连接算法Q-sample.该......
相似连接具有广泛的应用,如,合并检测,模糊的关键字匹配,数据融合,数据清理等。相似性度量方法有许多种,如Jaccard距离、Cosine距离、编......
相似性连接是数据挖掘分析领域的基础操作,在数据清洗、生物信息学和信息集成等众多领域有着广泛的应用意义。相似性连接处理的数......
相似连接查询是当前数据处理领域的热点研究问题之一,在信息检索、多源数据集成、实体识别、模式识别等领域有着广泛的应用。随着......
相似性连接作为数据处理过程的基本操作,在数据清洗、相似网页搜索和生物信息学等领域有广泛的应用,而数据规模和数据类型的不断增......
相似连接(similarity join)是指在给定的数据集中,根据给定的相似度度量函数来衡量数据之间的相似度,并找出所有相似度不小于给定阈值......
为了解决主存中高维数据相似连接问题,基于高效索引Δ-tree提出了连接两个不同数据集的主存相似连接算法Δ-tree-join*。该算法采用......
如何快速发现数据集中重复或相似的记录是大数据处理技术中的一个基本问题。相似连接是一种有效的相似数据查找方法,且基于MapReduc......
针对传统的索引和过滤算法处理在线相似连接时的不足,提出新的索引方法和过滤算法.在采用倒排索引的基础上,将索引按照位置和长度......
随着基于位置服务应用的不断推广,空间文本数据查询的应用价值(例如结合地理位置和用户标签的社交推荐)也在不断提高.但是,随着数据......
由于蕴含事物发展规律,时序数据上的数据挖掘正成为大数据决策的重要组成部分.作为时序数据挖掘的一种基本操作,时序数据相似连接可......
相似连接是指在给定的两个数据集中,根据给定的相似性度量函数来计算数据之间的相似度,并找出所有相似度不小于给定阈值的数据对的......
相似连接作为数据挖掘的基元,可被用来大幅度提高相似搜索、数据分析和数据挖掘的速度.大多数研究主要集中在大量基于磁盘数据的高维......
KNN连接作为数据挖掘的基元,可以用来大幅度提高相似搜索、数据分析和数据挖掘的速度.到目前为止,对KNN连接的研究主要在基于磁盘......
集合相似连接(setsimilarityjoin)是指在给定的数据集中,按照基于集合间覆盖关系的相似度计算方法来衡量数据之间的相似度、并找出所......
按照元组描述的实体对其进行组织和查询处理是一种管理劣质数据的有效方法。考虑到同一个实体的同一属性存在多个描述值,因此基于实......
期刊
局部相似连接能快速找出数据集间的局部相似记录对,是基因序列比对、剽窃检测和数据清洗等研究领域的基本操作。文中主要研究基于M......
许多新出现的数据库应用,如CAD、多媒体、医学图像、时间序列、分子生物学和科学数据库,将它们的数据表示为多/高维特征向量。每个......
局部相似自连接能在给定的单个数据集中快速找到所有满足相似要求的记录对,它在数据清洗、基因序列比对和剽窃检测等领域都有广泛......