基于特征串的网页文本并行去重算法

来源 :微电子学与计算机 | 被引量 : 0次 | 上传用户：stephenz2

【摘要】

：

针对海量网页文本去重效率不高问题,提出了一种高效的并行网页去重算法.该算法利用Hadoop框架的Map/Reduce机制,通过对网页文本提取特征串,使用Google的Simhash算法对提取的

【作者】

：

谢瑶兵

【机构】

：

同济大学电子与信息工程学院

【出处】

：

微电子学与计算机

【发表日期】

：

2015年2期

【关键词】

：

搜索引擎特征串网页去重 Simhash Map/Reduce

【基金项目】

：

国家自然科学基金项目(71170148);国家科技计划课题(2012BAD35B01)

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对海量网页文本去重效率不高问题,提出了一种高效的并行网页去重算法.该算法利用Hadoop框架的Map/Reduce机制,通过对网页文本提取特征串,使用Google的Simhash算法对提取的特征串进行哈希映射得到相应的哈希码,然后对产生的哈希码进行海明距离比较,从而得到重复的网页数据.实验表明,与相关去重算法相比,所提算法有效地提高了文本去重计算效率.

其他文献

2000年湖北宏观经济规划模型预测结果分析

<正> 湖北省综合经济规划模型是根据1985年湖北省国民经济投入产出表,应用其大量的、各种、各类最基本的变量数据研制而成的。目的是在人、财、物资源量和需求量全面协调的基础上提出2000年湖北省社会经济发展的总体规划,对湖北省经济发展提出综合平衡的总体设想。该模型由1051个经济计量方程、状态方程和动态投入产出方程构成的动态系统所组成,共含121个外生变量和1050个内生变量。模型采用需求确定结构,供给确定水平的混合导向。国民经济主要指标预测及其依据

期刊

湖北省规划模型国民收入生产额预测结果国民收入使用额积累率年均增长社会总产值积累基金固定资产投资

活性碳纤维吸附去除废水中Cr（Ⅵ）的研究

活性炭纤维对有机污染物具有良好的吸附去除能力,基于此,探讨其对重金属Cr（Ⅵ）的吸附去除行为。分别考查活性炭纤维用量、初始pH条件、盐度对活性炭纤维吸附去除Cr（Ⅵ）的影响,选

期刊

活性炭纤维Cr(Ⅵ)吸附水处理activated carbon fiber Cr（Ⅵ） adsorption water treatment

恒温条件下吗啡对丝光绿蝇发育规律改变与死者死亡时间推断的相关研究

目的了解吗啡对丝光绿蝇生长发育的影响为刑事调查推断死者死亡时间提供科学依据。方法用0.5、1.0、2.0倍致死量吗啡注射家兔,处死后取家兔四肢肌肉组织,28℃恒温条件下分别

期刊

丝光绿蝇吗啡死亡时间(PMI)法医昆虫学法医昆虫毒理学Lucilia sericatamorphinepostmortem interval（PMI）

回归方法的数据预处理及其应用

<正> 回归分析的一个主要目的,是把所研究的对象Y用另外一些特征量来表示,用它可以作出非可控变量Y的预报。当然,另外的一些变量都被视为可控变量。在质量管理的数理统计方法中,多元回归分析是最主要的方法之一。尽管多元回归分析方法的数学公式相当繁复,但是借助于电子计算机,没有人会感到使用这项技术有实质性的困难。

期刊

回归方法数据预处理判别函数判别分析多元回归分析B类可控变量非可控回归分析方法预报

大船集团财务管理系统设计与实现

随着计算机和网络技术的发展,计算机及网络技术的应用已经融入我们的日常工作和生活中,基于这些技术各种办公管理软件也让企业的运行更加高效。计算机技术的发展,强化了企业

学位

财务管理系统软件测试软件工程

责任督学:督什么?怎么督?——基于江阴市中小学校责任督学挂牌督导实践的思考

中小学校责任督学挂牌督导是国务院教育督导委员会贯彻落实中共十八届三中全会《决定》"深化教育领域综合改革"、"强化国家教育督导"精神的一项重要举措。为增强责任督学挂牌

期刊

责任督学挂牌督导中小学

中国分省畜禽产污系数优化及污染物构成时空特征分析

为提升畜禽产污量估算精度,揭示2002-2010年中国及各省畜禽污染物规模构成(养殖模式及畜禽种类)的时空分布特征,首先对产污系数和畜禽养殖量核算进行了优化研究,在此基础上从

期刊

面源污染畜禽产污系数污染物构成时空特征中国

结核分枝杆菌ESAT6基因的研究进展

结核分枝杆菌分泌许多蛋白到细胞外,对结核病的发生起着举足轻重的作用,其中6 ku早期分泌抗原靶分子（简称ESAT6）具有主要活性,可以显著活化巨噬细胞,提高巨噬细胞对胞内结核杆

期刊

分枝杆菌结核结核病ESAT6综述Mycobacterium tuberculosis tuberculosis ESAT6 review

我国粮食生产的经济周期

期刊

中国粮食生产农业经济经济周期

表面活性素抗球虫作用的研究

目的探讨表面活性素抗鸡柔嫩艾美耳球虫的效果，并对其溶血活性进行测定。方法选取7d龄雏鸡150只，随机分为感染不用药组、抗球虫药（氨丙啉）饮水组、灌胃表面活性素（surfatin）组、肌

期刊

表面活性素抗球虫指数溶血柔嫩艾美耳球虫Surfactin anticoccidial index hemolysis Eirneria tenella

基于特征串的网页文本并行去重算法

与本文相关的学术论文