一种基于MapReduce的大数据集相似自连接算法

来源 :计算机科学 | 被引量 : 0次 | 上传用户：J2EE_BOY

【摘要】

：

如何快速发现数据集中重复或相似的记录是大数据处理技术中的一个基本问题。相似连接是一种有效的相似数据查找方法，且基于MapReduce的相似连接算法因对大数据集的处理能力强

【作者】

：

孙德才王晓霞

【机构】

：

渤海大学信息科学与技术学院,渤海大学大学基础教研部

【出处】

：

计算机科学

【发表日期】

：

2017年5期

【关键词】

：

相似连接大数据 MAPREDUCE 数据清洗 Similarity join Big data MapReduce Data cleaning

【基金项目】

：

本文受教育部人文社会科学研究青年基金项目（15YJC870021,15YJC870028）,辽宁省博士科研启动基金计划项目（20141138）,辽宁省教育厅科学研究项目（L2015010,L2014451）,辽宁省自然科学基金（2015020009）,国家自然科学基金青年基金项目（61602056）资助.

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

如何快速发现数据集中重复或相似的记录是大数据处理技术中的一个基本问题。相似连接是一种有效的相似数据查找方法，且基于MapReduce的相似连接算法因对大数据集的处理能力强而得到广泛关注。通过分析当前相似连接算法进行自连接时存在的自连接冗余、读取原字符串复杂等问题，在Massjoin算法的基础上提出了一种改进的基于MapReduce的自连接算法。改进算法在过滤阶段增加了消除自身冗余的过滤条件，在验证阶段又采用了生成正反候选对和组合id等去冗余技术，并且读取原始字符串内容时只需读取数据集一次。实验数据显示，改

其他文献

CCodeExtractor：一种针对C程序自动化的函数提取方法

随着程序规模和复杂性的增加,代码重构在改善软件质量、性能以及提高软件的扩展性和维护性等方面至关重要。目前的Eclipse中,C源代码重构工具的函数提取只能处理一些简单的代

期刊

C程序重构程序变换程序理解代码提取循环分析LLVMC program refactoring Program transformation Pr

扬州市科技信息网络化初探

期刊

扬州市科技信息网络计算机网络

小型化高精度航空陀螺逆变电源设计

介绍了一种基于单端反激（Fly back）和特定谐波消去法（SHEPWM）相结合的逆变电源结构，实现频率、相位和幅值精准的航空陀螺驱动精密逆变电源；前端单端反激部分通过重新设计的反馈回路

期刊

单端反激固定谐波消去正弦脉宽调制航空陀螺电源fly back SHEPWM SPWM aviation gyroscope inverter po

云存储副本优化选择策略

为了提高云计算环境中系统的整体数据调度效率，对云存储系统中的副本选择问题进行研究，提出一种基于蚁群觅食原理的云存储副本优化选择策略。该策略利用蚁群算法在解决优化问题

期刊

云计算副本选择蚁群算法OPTORSIMCloud computingReplica selectionAnt colony algorithmOp

怎样使母猪多产仔

期刊

母猪产仔数受胎率

一种MapReduce架构下基于遗传算法的K-Medoids聚类

由互联网时代快速发展而产生的海量数据给传统聚类方法带来了巨大挑战,如何改进聚类算法从而获取有效信息成为当前的研究热点。K-Medoids是一种常见的基于划分的聚类算法,其

期刊

海量数据K-MedoidsMAPREDUCE遗传算法聚类效率Big-dataK-medoids MapReduce Genetic algori

化学工业可成为泰兴市第一支柱产业

期刊

化学工业泰兴市支柱产业

关于我市植保服务产业化的实践与思考

期刊

扬州市农业植保服务产业化

盐城市计经委对汽气净化池施工质量进行专项检查

期刊

盐城市沼气净化池施工质量质量检查污水处理

基于形态Snake模型的遥感影像的单木树冠检测算法

单木树冠检测可以辅助林业统计获取诸如树冠位置、冠幅、胸径等信息,对发展精准林业具有重大意义。针对单木树冠检测中树冠轮廓描绘不精确的问题,文中提出了一种基于形态Snake模型的遥感影像的单木树冠检测算法。该算法首先对林区特征进行了分析,然后使用局部极值法对林区特征图和距离变换图提取树冠顶点,最后根据树冠顶点为所有树冠初始化形态Snake模型轮廓,并迭代进行轮廓演变,得到最终的树冠轮廓。为了验证方法的

期刊

SNAKE模型单木树冠检测形态学遥感Snake modelSingle tree detectionMorphologyRemote sensin

一种基于MapReduce的大数据集相似自连接算法

与本文相关的学术论文