基于相似连接的多源数据并行预处理方法

来源 :计算机应用 | 被引量 : 0次 | 上传用户:fendoudeying
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大规模网络环境和大数据相关技术的发展对传统数据融合分析技术提出了新的挑战。针对目前多源数据融合分析过程灵活性差、处理效率低的问题,提出了一种基于相似连接的多源数据并行预处理方法,该方法采用了分治和并行的思想。首先,通过对多源数据中的相似语义进行统一、对个性语义进行保留的预处理方法提高了灵活性;其次,提出了一种改进的并行MapReduce框架,提高了相似连接的效率。实验结果表明,所提方法在保证数据完整性的基础上,使总的数据量减小了32%。与传统的MapReduce框架相比,改进后的框架在耗费时间方面减小了43. 91%,因此该方法可以有效提高多源数据融合分析的效率。
其他文献
海上风电是未来清洁能源的发展方向,降低海上风机雷击事故的发生率,提高其抗雷击能力,是海上风电研究的重要课题。分析和介绍了海上风机的防雷系统,通过上海电气4 MW海上机组
在可持续发展的大背景下,生态化已成为当今的热点,与生态省、生态城市、生态社区、生态工业园区等概念类似,生态校园也日益成为国内外高校建设所追求的理想目标。自20世纪80
井漏是严重危害钻井作业安全的最复杂情况之一,井漏的发生不仅会给钻井工程带来时间、经济等的损失,也给油气资源的勘探开发带来极大困难,因此井漏一直是国内外石油工程领域
为了对运行条件下的输电线路载荷能力进行在线定值,考虑系统的整体性,并体现环网中并行流对线路载荷能力的影响,建立了基于双端口诺顿等值的输电线路送受端系统双端电源等值
<正> 年过花甲的任学礼先生,仍然埋头汉字文化研究,以新的方法,挑战汉字历史经典《说文解字》,及清代的段、王、朱、桂诸文字学大师。这是一个巨大的工程。听起来,有点让人石
大跨度双提篮组合拱桥结构体系新颖,在细部构造、使用要求、养护特点等方面具有特殊性,目前国内该体系桥梁并不多见。本文以兖州兴隆大桥为工程背景,展开大量分析和试验研究,
21世纪初的几年,受政府扩大内需政策的影响,我国房地产业迅速增长,但中央越来越发现这样的增长似乎太“猛”了。各项数据显示,近年来房地产市场投资过热、房价过高和结构失衡
农业标准化是食品安全工作的基础,只有以农业标准化为基础指导农业生产,才能不断提高农产品质量,保证食品质量安全。对我国农业标准化工作实施的必要性进行了分析,对实施现状
总结了翠冠梨优质丰产栽培技术,主要包括高标准建园、土肥水管理、整形修剪、疏花疏果、套袋、综合防治病虫害等,以供种植参考。
目的:通过研究脑梗死急性期的中医证候演变规律,为建立脑梗死的中医一级预防体系提供依据。方法:对1972—2012年中国期刊全文数据库(CNKI)及维普资讯中文科技期刊数据库(VIP)