一种基于MapReduce的大数据集相似自连接算法

来源 :计算机科学 | 被引量 : 0次 | 上传用户:J2EE_BOY
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何快速发现数据集中重复或相似的记录是大数据处理技术中的一个基本问题。相似连接是一种有效的相似数据查找方法,且基于MapReduce的相似连接算法因对大数据集的处理能力强而得到广泛关注。通过分析当前相似连接算法进行自连接时存在的自连接冗余、读取原字符串复杂等问题,在Massjoin算法的基础上提出了一种改进的基于MapReduce的自连接算法。改进算法在过滤阶段增加了消除自身冗余的过滤条件,在验证阶段又采用了生成正反候选对和组合id等去冗余技术,并且读取原始字符串内容时只需读取数据集一次。实验数据显示,改
其他文献
随着程序规模和复杂性的增加,代码重构在改善软件质量、性能以及提高软件的扩展性和维护性等方面至关重要。目前的Eclipse中,C源代码重构工具的函数提取只能处理一些简单的代
介绍了一种基于单端反激(Fly back)和特定谐波消去法(SHEPWM)相结合的逆变电源结构,实现频率、相位和幅值精准的航空陀螺驱动精密逆变电源;前端单端反激部分通过重新设计的反馈回路
为了提高云计算环境中系统的整体数据调度效率,对云存储系统中的副本选择问题进行研究,提出一种基于蚁群觅食原理的云存储副本优化选择策略。该策略利用蚁群算法在解决优化问题
由互联网时代快速发展而产生的海量数据给传统聚类方法带来了巨大挑战,如何改进聚类算法从而获取有效信息成为当前的研究热点。K-Medoids是一种常见的基于划分的聚类算法,其
单木树冠检测可以辅助林业统计获取诸如树冠位置、冠幅、胸径等信息,对发展精准林业具有重大意义。针对单木树冠检测中树冠轮廓描绘不精确的问题,文中提出了一种基于形态Snake模型的遥感影像的单木树冠检测算法。该算法首先对林区特征进行了分析,然后使用局部极值法对林区特征图和距离变换图提取树冠顶点,最后根据树冠顶点为所有树冠初始化形态Snake模型轮廓,并迭代进行轮廓演变,得到最终的树冠轮廓。为了验证方法的