相似网页相关论文
网页查重就是将大量网页集合中重复的网页找出来,并加以选择,使用户不用处理大规模重复信息,在节省时间的同时,提高信息检索等的应......
Internet上超过80亿个网页的海量数据使互联网成为当今世界上最大的信息库和全球范围内传播信息的最主要渠道,也为广大用户提供了一......
由于Web镜像和网络转载抄袭,完全重复以及近似重复的网页数据对于当前的搜索引擎产生了一系列的问题:它不仅增加了网页数据索引的......
本文通过分析目前存在的网页采集程序的构造模式,设计了的藏文网页采集模块TibetSpider.提出了采集的藏文网页在数据库中的存储模......
在互联网技术高速发展的今天,网络已经成为人们工作、学习和生活的重要信息来源。但是海量的网络信息给人们搜索所需的信息带来一......
提出一种基于布尔模型的网页查重算法,利用布尔模型寻找适当的特征,建立索引以减少网页文档之间的比较次数。实验验证了这种算法的......
重复网页检测的关键问题是如何有效地提取相似网页内容的特征并对特征进行相似度比较。本文概述了重复网页的定义、检测流程,对重......
利用Bloom Filter数据结构、shingling算法和MD5编码,构造双层网页去重模型。通过Bloom Filter结构,在网络蜘蛛程序下载网页时,去......
针对海量网页信息,提出适于搜索引擎使用的网页相似度处理算法。算法依据网页抽象形成的概念,在倒排文档基础上建立相似度处理模型......