基于特征串的网页文本并行去重算法

来源 :微电子学与计算机 | 被引量 : 0次 | 上传用户:stephenz2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对海量网页文本去重效率不高问题,提出了一种高效的并行网页去重算法.该算法利用Hadoop框架的Map/Reduce机制,通过对网页文本提取特征串,使用Google的Simhash算法对提取的特征串进行哈希映射得到相应的哈希码,然后对产生的哈希码进行海明距离比较,从而得到重复的网页数据.实验表明,与相关去重算法相比,所提算法有效地提高了文本去重计算效率.
其他文献
<正> 湖北省综合经济规划模型是根据1985年湖北省国民经济投入产出表,应用其大量的、各种、各类最基本的变量数据研制而成的。目的是在人、财、物资源量和需求量全面协调的基础上提出2000年湖北省社会经济发展的总体规划,对湖北省经济发展提出综合平衡的总体设想。该模型由1051个经济计量方程、状态方程和动态投入产出方程构成的动态系统所组成,共含121个外生变量和1050个内生变量。模型采用需求确定结构,供给确定水平的混合导向。国民经济主要指标预测及其依据
活性炭纤维对有机污染物具有良好的吸附去除能力,基于此,探讨其对重金属Cr(Ⅵ)的吸附去除行为。分别考查活性炭纤维用量、初始pH条件、盐度对活性炭纤维吸附去除Cr(Ⅵ)的影响,选
目的了解吗啡对丝光绿蝇生长发育的影响为刑事调查推断死者死亡时间提供科学依据。方法用0.5、1.0、2.0倍致死量吗啡注射家兔,处死后取家兔四肢肌肉组织,28℃恒温条件下分别
<正> 回归分析的一个主要目的,是把所研究的对象Y用另外一些特征量来表示,用它可以作出非可控变量Y的预报。当然,另外的一些变量都被视为可控变量。在质量管理的数理统计方法中,多元回归分析是最主要的方法之一。尽管多元回归分析方法的数学公式相当繁复,但是借助于电子计算机,没有人会感到使用这项技术有实质性的困难。
随着计算机和网络技术的发展,计算机及网络技术的应用已经融入我们的日常工作和生活中,基于这些技术各种办公管理软件也让企业的运行更加高效。计算机技术的发展,强化了企业
中小学校责任督学挂牌督导是国务院教育督导委员会贯彻落实中共十八届三中全会《决定》"深化教育领域综合改革"、"强化国家教育督导"精神的一项重要举措。为增强责任督学挂牌
为提升畜禽产污量估算精度,揭示2002-2010年中国及各省畜禽污染物规模构成(养殖模式及畜禽种类)的时空分布特征,首先对产污系数和畜禽养殖量核算进行了优化研究,在此基础上从
结核分枝杆菌分泌许多蛋白到细胞外,对结核病的发生起着举足轻重的作用,其中6 ku早期分泌抗原靶分子(简称ESAT6)具有主要活性,可以显著活化巨噬细胞,提高巨噬细胞对胞内结核杆
目的探讨表面活性素抗鸡柔嫩艾美耳球虫的效果,并对其溶血活性进行测定。方法选取7d龄雏鸡150只,随机分为感染不用药组、抗球虫药(氨丙啉)饮水组、灌胃表面活性素(surfatin)组、肌