基于MapReduce的相似自连接新方法:过滤算法和内切圆算法

来源 :第三届CCF大数据学术会议 | 被引量 : 0次 | 上传用户:haoxuexi0825
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  相似自连接是一个在很多应用领域中很重要的问题。对于海量数据集,MapReduce可以提供一个有效的分布式计算框架,相似自连接操作也同样可以应用在MapReduce框架下。但已有研究工作仍然存在不足,如对于聚集数据区域采用加细划分方法,目的是负载平衡,但不易实现。现有的算法不能有效的完成海量数据集的相似自连接操作。本文提出了两个新颖的基于MapReduce的相似自连接算法,其思想是采用基于坐标过滤技术,形成有效候选集,以及针对聚集区域采用六边形划分的内切圆算法。实验结果表明,我们的方法比其他算法有更高的效率,提高效率80%以上。它能够有效的解决有聚集区域的海量数据集的相似自连接问题。
其他文献
  鲁棒性在排序学习中显得越来越重要,而现有排序学习算法多数仅关注改进排序模型的有效性,往往忽略了排序模型的鲁棒性。为了增强排序模型的鲁棒性,在训练排序模型的过程中可
会议
摘要:体育游戏是一种有趣的教学方式,它一出现,就被学生们所喜爱,体育教学的特点是容易接受,具有娱乐性,能够充分调动学生参与初中体育课的兴趣,有益学生们的身心健康,还能够确保初中体育的教学质量。  关键词:体育游戏;初中体育教学;实践  前言:对于初中生来说,上体育课无非就是为了体育游戏,我们可以通过各式各样的体育游戏来提高初中体育教学的效率。体育游戏不仅能够增强学生的身体素质,还能够让学生们的心理
  随着城市化进程的进一步深化和3G、4G等数据通讯服务的进一步扩展,手机用户群对数据服务不断增长的需求和电信基站的服务性能之间的矛盾日益突出。如何准确地预测各个基站
会议
  以传感器数据为代表的时序数据是工业新发展的关键,其中,针对时序数据的聚合操作成为主要的应用场景之一。传统关系型数据库不足以支撑海量的时序数据,而现有的NoSQL数据库
会议
膜蒸馏(MD)是一种以多孔疏水膜为分离屏障的新兴热驱动膜分离技术,在海水淡化领域应用前景广阔。然而,MD的工业化放大亟需解决膜稳定性欠佳、通量较低和膜材料选择范围窄等关键
多糖对人具有极大的利用价值,植物多糖以其来源广泛且无细胞毒性而成为医药界研究的热门领域.芦荟作为民间用药已有几千年的历史,更是被誉为"20世纪最神奇的植物",在日用、医
  Grapes are one of the most widely cultivated fruit crops in the world.Chinese wild grape germplasm are important resources for crossbreeding and molecular b
会议
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
本研究以辽宁鞍山种植的雅龙果为实验材料,采用多种色谱技术(硅胶柱色谱、活性炭色谱、大孔吸附色谱、葡聚糖凝胶色谱、聚丙烯酰胺色谱、制备薄层色谱等),对雅龙果干燥叶子的95
旨在探索Na3V2O2(PO4)2F钠离子电池正极材料的制备方法和性能研究,构建高功率密度和长循环稳定性的钠离子电池储能体系。Na3V2O2(PO4)2F正极材料的容量和倍率性能受制于较大的