网页消重相关论文
随着网络上信息的飞速增长,搜索引擎已经成为人们查找信息的重要途径。搜索引擎对互联网上的网页进行检索时,由于存在大量的重复网页......
当前大部分搜索引擎都存在搜索结果有大量重复网页或者转载网页的问题,同时中文搜索引擎的网页聚类也处于刚刚起步阶段,很多技术都......
语料库与自然语言信息处理有着相辅相成的关系,语料库是用统计语言模型方法处理自然语言的基础资源,它的建设和应用一直是语言处理......
随着计算机硬件软件和互联网技术的飞速发展,网络上的各种信息急剧增长,已经成为人类有史以来信息资源数量最多、信息资源种类最全......
新闻类网页是互联网上冗余信息的重灾区。冗余网页不仅会加剧搜索引擎的处理负担,并且会降低用户体验,因此有必要对互联网上的冗余新......
针对海量web文本信息,利用从网页主题内容提取出来的特征关键词,在倒排索引基础上建立相似度计算模型。对一篇新入库的网页文档,利用......
针对在网页检索结果中经常出现内容相同或相似的问题,提出了一种通过计算网页相似度的方法进行网页消重。该算法通过提取网页特征......
针对海量Web文本信息,利用从网页主题内容提取出来的特征关键词,在倒排索引基础上建立相似度计算模型。对一篇新人库的网页文档,利用......
互联网的迅猛发展导致网络中的网页呈指数级别爆炸式增长。为解决在海量网页中寻找信息的问题,搜索引擎成为了人们使用互联网的重要......
基于MD5算法计算数字指纹的网页消重算法简单而高效,在网页消重领域应用比较广泛。但是由于MD5算法是一种严格的信息加密算法,在文章......
在对现有主流网页消重技术分析的基础上,提出一种基于网页内容的改进的网页消重高效检测算法.该算法通过利用网页的标签树结构选取最......
随着互联网的发展,网络信息呈爆炸性的增长。大量的信息一方面给人们带来了更多的消息来源,而另一方面也给人们搜索有用的信息带来......
本文主要研究的内容分为网页消重技术研究、Web对象分布式抓取技术、Web对象分布式存储技术。全文将重点对这几个部分进行了详细的......
网络信息的爆炸性增长使搜索引擎成为人们上网必不可少的工具之一。其中应用最广泛的是以Goolge、百度为代表的综合性搜索引擎,这......
随着Internet的不断发展,网络信息呈指数级不断膨胀,这也给信息检索带来了很大的困难,因此对于重复网页的消重操作也是十分有意义......