MinHash相关论文
第三代测序技术自问世以来在临床分子诊断中扮演着越来越重要的角色,尤其在基因组测序、甲基化研究、突变鉴定(SNP检测)等方面。测序......
图的稀疏化是图聚类分析中数据预处理的关键操作,已得到广泛的关注。针对图数据日益普及、规模不断增大的现状,提出了一种基于MapRed......
由于盗版Android应用(Android Application,简称APP)通常保持着与正版APP相似的用户体验,因此本文提出一种基于资源签名的APP相似......
针对目前的图聚类分析方法存在的不足,在分析研究MapReduce架构理论、最小哈希算法以及图聚类分析中的数据抽样和稀疏化处理机制的......
本文基于信号指纹技术,通过研究短时(〈10 min)地磁异常数据识别算法,完成了对地磁干扰信号类型的识别。本文所用信号指纹技术结合了......
局部敏感哈希(locality sensitive hashing,LSH)用于在海量高维数据中检索相似的数据项,它能高效地返回相似度大于用户给定阈值的......
随着信息时代数据量成倍的增长,传统的文本相似度检测方法已经无法处理大规模的文本数据.为此,提出了一种基于Hadoop集群技术的文......
随着互联网技术的蓬勃发展,网络媒体已经成为了人们获取新闻的一个重要渠道。网络新闻因其新闻传播速度快、传播范围广等特点,每日......
相似度估计是实现近似集合检索的一个重要组成部分。针对于不用的相似度度量方式,主要有使用Jaccard相似度的Min Hash算法和基于海......
传统协同过滤的推荐机制应用在大规模数据上时,如果在要保证推荐质量会导致占用运行时间和存储空间的增加。研究分析了Minhash在大......
MinHash作为位置敏感哈希(LSH)算法中的一种,可以用来快速估算两个集合的相似度,查找网络上的重复网页或者相似新闻网页,MinHash算......
云存储已经成为一种重要的存储方案,云计算带来的好处是很明显的,我们可以方便地存储我们的文件并与他人共享我们的文件。为了防止......
社会机会网络的快速发展为未来的自组网络提供了无限的可能,社会机会网络解决了在自组网中无法实现端到端连接或无法实时连接的难......
随着网络技术和信息技术的发展,互联网不可阻挡地进入了人们的生活,并且改变了人们的生活方式。但由于电子商务的虚拟性、跨地域性......
在很多应用领域中,需要处理的数据往往是海量的并且具有很高的维度。近年来,随着大数据研究领域的兴起,针对高维数据的最近邻查找问题......