Web信息采集中的哈希函数比较

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户:szneptune
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在Web信息采集的过程中,需要判断待采页面是否在已采页面集合中.为了实现快速采集,采用哈希函数来实现.基于一个含有2000多万个URL的序列,通过大规模的实验性评测,比较了函数Tianlhash、ELFhash、HfIp、hf和Strhash的一阶和二阶哈希冲突率.实验结果表明,Strhash和Tianlhash的性能较佳,值得推荐.并且,ELFhash的测试性能要优于HfIp和hf采用二阶哈希后的天罗Web信息采集系统,占用几兆的内存空间,大大提高了采集速度,并降低了数据库的负荷.
其他文献
基于旅游系统的区域开放性,从省内、省际两个角度出发,对国家级风景区的省内、省际交通可达性和市场潜力进行探讨。研究发现:1风景区离散或集聚的规律性分布,使整体可达性区
<正>城镇化是一个国家推进现代化的综合载体和重要手段。我国城镇化率已经超过50%,城乡结构实现了历史性的转变。然而国际经验表明,一个国家或地区城镇化率达到50%左右的阶段
会议
<正>住房城乡建设部日前印发通知,批准《装配式建筑评价标准》(以下简称《装配式标准》)为国家标准,自2018年2月1日起实施。原国家标准《工业化建筑评价标准》同时废止。据介
目的探讨环状混合痔的联合手术治疗方法。方法回顾分析了2008年10月至2012年6月我院用PPH联合外剥内扎术治疗198例环状混合痔的临床资料。结果此组患者全部痊愈,近远期效果均
随着Flash芯片容量的日益增长,如何设计低空间复杂度的Flash管理算法已经成为RAM空间受限的嵌入式存储系统的一个关键问题.本文根据文件在Flash介质上连续存放的特性,引入区
基于GIS技术,运用加权平均旅行时间,分析了青海省A级以上景点(区)的时间可达性。通过分析发现:青海省旅游景点(区)等级表现出"少-多-少"交错排列的的格局,并在数量上以4A和3A
简要介绍了煤矿地质环境保护与恢复治理目标、任务及煤矿地质环境防治工程,有针对性地提出了预防、保护和恢复治理的技术措施。
目的:探讨黄芪熬液对离体蟾蜍心脏收缩力和心率的影响.方法:采用斯氏蛙心插管法,在保持总量为1.0ml的情况下,分别以不同浓度的黄芪熬剂对离体的蟾蜍心脏进行灌流,经BL-420F生
在我国保险欺诈问题日趋严重的背景下,本文通过博弈论理论以及matlab等软件进行回归预测模型的构建,对国际上在反保险欺诈领域领先的国家采取的措施及其经验进行了定量分析。
在厚泥岩顶板条件下,大跨距高帮硐室存在围岩稳定性差、支护难度大、换装设施可靠性低等难题。在分析围岩地质条件的基础上,根据相关设计规范,确定合理的支护参数、设计施工