基于MapReduce模型的大数据相似重复记录检测算法

来源 :上海交通大学学报 | 被引量 : 0次 | 上传用户:zhangstian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对大数据来源多、维度高和体量大的特点,提出一种云环境下检测大数据相似重复记录的并行算法MP-SYYT.利用汉语词法分析技术、德尔菲法以及词频-逆向文件频率算法对传统的SimHash算法进行改进,以解决算法中关键词提取速度慢、精度和权重计算精度低的问题;利用倒排索引算法对传统SimHash算法进行优化,以提高其相似重复记录的匹配效率;利用所提MP-SYYT算法在云平台上定义Map函数和Reduce函数,并用MapReduce模型在云环境下实现了大数据相似重复记录的并行检测和直接输出;在Hadoop平台上进
其他文献
芍药(Paeonia lactiflora Pallas)隶属于芍药科(Paeoniaceae Raf.)、芍药属(genus Paeonia L.)、芍药组(section Paeonia DC.),为多年生宿根草本观赏名花和药用植物。本研究
钢桁架拱桥以其造型美观、刚度大、跨越能力大等优点,近来被国外广泛采用。但是对于大跨度钢桁架拱桥的研究,目前可检索到的文献资料很少,人们对钢桁架拱桥在理论和实践上的
《现代》诗歌对现代派的形成与推动起着相当重要的作用。但《现代》诗歌并不等同于现代派诗歌。当对“现代派”这一诗歌流派的研究在取得相当成果的同时也进入了某种轻车熟路
詹姆斯·费伦是在学界享有极大声誉的美国叙事学家,他的修辞性叙事理论在对文本进行研究时不限于一点,通常在审美、伦理以及叙事形式之间循环进行,这种动态性、不封闭性和多
<正>2016年,北京市文物研究所在通州区潞城镇后北营村发掘了一座元代土坑墓,出土了八思巴文铜钱"大元通宝"4枚。这4枚铜钱均为圆形,方孔,光背,周郭完好,制作较为精致。标本一
<正>我院将湿润烧伤膏用于痔瘘患者术后换药,可以促进创面愈合。现总结报道如下:1临床资料1.1一般资料于我院行手术治疗的患者200例,其中120例术后采用湿润烧伤膏(治疗组),80
最近A股市场上最火的新闻就是一些上市公司“实物分红”,先是南方食品(证券代码000716)向股东发放黑芝麻乳,然后量子高科(证券代码300149)向股东发放龟苓膏,紧接着人福医药(证券代码6
报纸
中国是茶树(Camellia sinensis)的原产地.制茶工艺也始于中国。茶作为饮料.已有2000—3000年的悠久历史了.并传至世界各地。
同步卫星地面站六米天线控制系统是微机控制的、按步进跟踪原理工作的角跟系统,按方位——俯仰轴系工作,具有跟踪、对星、搜索、存贮卫星数据、显示等功能、实现了操作自动化
银行在我国公司治理结构中的作用尚处于弱化状态,这使得我国公司治理结构存在许多缺陷。这种状态的出现,既有银行自身的原因,也有法律、制度设计上的缺陷。相关理论与国际经