基于Mahout的MinHash算法研究与实现

被引量 : 1次 | 上传用户:jlsonger
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在很多应用领域中,需要处理的数据往往是海量的并且具有很高的维度。近年来,随着大数据研究领域的兴起,针对高维数据的最近邻查找问题已经得到广泛的应用和研究。精确最近邻查找的查询代价非常大,近似最近邻查找与精确最近邻查找相比,能够在效率上得到很大的提高,因此能有效解决最近邻查找问题。近似近邻查找是以牺牲查找精度为代价换取查找效率的提高,从而达到平衡查找效率与查找结果的目的。位置敏感哈希(LSH)能够有效的解决近似近邻查找问题,并在实际应用中取得了明显的效果,是解决维度灾难的一个很好的方法。LSH方法可以以概率方式保证一定的查询精确度,从而实现快速的近似最近邻查询。MinHash是LSH算法中的一种,可以用来快速估算两个集合的相似度,查找网络上的重复网页或者相似新闻网页,MinHash算法使用Jaccard相似度来度量对象的相似程度。在广泛阅读国内外参考文献的基础上,本文针对MinHash算法在分布式平台上的实现进行了分析和研究。我们发现,在分布式平台Mahout上原有的MinHash算法是错误的,其性能与理论MinHash算法分析模型有很大的差距。为此,我们在深入研究MinHash算法原理和Mahout分布式平台的基础上,给出了新的MinHash算法。然后,使用真实数据集对新旧算法做对比分析,验证了新的MinHash算法在处理实际问题上的正确性和准确性。最后,在Mahout中实现了任意两个文件对的Jaccard相似度,得到精确Jaccard相似度结果,并与MinHash算法的近似结果做对比,用来评价MinHash算法结果的准确性。
其他文献
柯尔律治的《老水手行》在借用17和18世纪旅行文学提供的实录材料的基础上,充分发挥了诗性想象力,在写实的航海日志和浪漫的抒情诗中找到了平衡的支点和内在的统一性。诗篇自
为了解决某集装箱部件有限公司研制的双轴汽车悬挂系统钢板弹簧在使用中出现的断裂问题。利用试验装置测试钢板弹簧的力学性能,再通过有限元分析计算进行对比,为该款悬挂系统
柑橘黄龙病是1种系统性侵染的毁灭性病害。近年来,柑橘黄龙病在我国部分柑橘产区为害加重,已成为制约柑橘产业健康发展的关键因素之一。为了进一步了解该病的发生、发展规律,
为了解中华竹鼠与甘肃鼢鼠对食物选择的适应机制,对它们的咀嚼肌及相关的骨学特征作了比较解剖,并运用生物力学原理分析下颌运动方式及食物加工过程的咀嚼效率。结果表明:中华竹
互联网市场热点变化迅捷,电商零售行业竞争更是异常激烈,闪购模式电商以限时特卖的营销方式,在商业上获得了巨大的成功,其他电商企业纷纷效仿,闪购模式电商企业的市场份额被
<正>沈浩事迹经媒体报道后,我省各地到处涌现学习热潮,各地组织部门将学习沈浩与当前深入学习实践科学发展观紧密结合起来,引导广大党员干部响应中央号召,结合自身实际,努力
基于劳动力市场分割理论,分析了大学生在"次级劳动力市场"就业的困境与"一级劳动力市场"的进入壁垒,探讨了大学生努力提高"信号显示"力图进入一级劳动力市场的局限性,指出中
1表面粗糙度(表面会存在放电凹坑)(1)单个脉冲能量:能量越大,放电凹坑既大又深,恶化粗糙度。⑵与材质有关:熔点高的材料在相同能量加工的表面粗糙度比熔点低的好,但其加工速
<正>尧都区地处临汾市委、市政府所在地,总面积1304平方公里,辖16个乡镇、9个街道办事处,372个行政村。在第九届村民委员会和党支部换届选举中,尧都区创造性地实行了"145"工
中国经济结构、产业结构的调整正不断深入并加速进行。伴随市场化、城市化和科技发展,我国人口就业方式正在发生重大变动,灵活就业人口的规模快速增长,已形成一个庞大的就业