基于网页去噪Hash的增量式网络爬虫研究

来源 :舰船电子工程 | 被引量 : 0次 | 上传用户:kangta98
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于网页Hash值产生的增量式网络爬虫,可以实现网页的增量抓取过程.然而,由于网页噪声的存在,经典Hash算法对文本产生的Hash值过于敏感,导致通过Hash值对比判断网页变化的过程偏离实际情况.研究提出一种去噪后Hash产生方法,通过对网页文本块进行“正文”与“噪声”分类,去除噪声后对网页正文内容产生Hash值并判断网页是否变化,提高网页增量抓取效率.实验结果表明所提出的基于去噪后Hash产生方法的增量式抓取过程,Hash值敏感度降低,有效提高了网络爬虫增量抓取性能.
其他文献
目前生物柴油的价格是石化柴油的1.5倍,寻求新的廉价易得的原料降低生物柴油的成本是必然趋势。作物秸秆是一种低廉普遍的废弃物,秸秆中含有纤维素,半纤维素等成分,水解成单糖后
对徐晓望关于"明清东南山区经济转型"说提出了不同看法。第一,认为东南山区的"厂"类型很复杂,不能以"新型经济"概之,它们只是传统经济的很小的附属部分。第二,明清东南山区的
清华大学生命学院教授罗永章的团队在世界上首次证明,肿瘤标志物热休克蛋白90α(Hsp90α)用于肝癌患者的检测,现己被国家食品药品监督管理总局批准在临床中使用。这标志着首个由
Marathon running is a strenuous activity that placesstress on the gastrointestinal system.[1] In fact, 30% to81% of runners report gastrointestinal complaints,
百特FLO-GARD 6200滴定用输液泵,可以用于包括血液在内的滴定治疗用的各种液体。由于它具有多种报警功能,因而被广泛用在重症病人的液体输入中。下面介绍二种常见的报警信号
在对目标标准模型库建立的基础之上,通过把目标类型作为评判集,把探测参数作为因素集,并根据每个探测参数特点来构造隶属函数,提出了一种基于模糊综合评判的空袭兵器识别方法
近日.由近百位专家集体讨论和编写、历时两年完成的2010《中国高血压防治指南》在京公布。此次修订版在2005年的基础上完成,将更多篇幅放在了高血压的预防上,同时增加了儿童青少
人类的恒牙列共有32颗,智齿是最后萌出的最靠近喉咙的4颗第三磨牙,上下颌各2颗。智齿大多数人应该都有,一般会在18—25岁之间长出来,所以有智能齿之称,简称智齿。不过,什么时候长、
本文描述冷原子荧光法测定水样中汞的原理、分析方法、测量技术。通过对标准样和考核样的测定结果表明,应用冷原子荧光法测定水样中的汞,其方法成熟、可靠,不仅精密度和准确度都
论文采用基于提升小波的改进SPIHT算法对图像压缩传输进行论证研究,得出在低数据链路条件下,压缩/解压缩之后的图像会发生严重的失真。为了提高目标的可识别性,提出了对图像进行基于感兴趣区压缩传输。经过分析和对比实验后得出基于Maxshift方法的感兴趣区编码方法最优,具有一定的应用潜力和实际价值。