重复网页相关论文
Web上信息就像一条河流,从我们身边不停流过.已经有很多人认识到这些信息的价值,从而展开了对Web信息多方面的研究.该文阐述的内容......
Internet的迅速普及和飞速发展,使人们面临着一个信息的海洋,快速从中获得真正重要的信息变得至关重要。搜索引擎(主要指全文搜索......
面向特定领域的搜索引擎是信息检索领域的一个重要研究课题,虽然该领域已经取得许多研究成果,但是目前基于信息安全学科特定知识......
本文介绍了Web数据挖掘在军事地球物理信息查询中的应用,分析了网页的链接结构,介绍了HITS页面排序算法,优化搜索引擎返回的页面顺......
去除重复网页一直是信息检索领域的一个待解决的问题.本文基于双语文章的内容,提出了一种抽取特征词和特征句,判别跨语言重复网页......
互联网中存在大量重复网页,降低了用户体验并使搜索变得复杂化。为解决这些问题,把相似网页的比较转换成二元分类问题,使用监督学......
针对识别中文新闻重复网页传统方法的不足,提出以后缀树作为基本数据结构,依据新闻网页的标题性和时间性,构建中文新闻重复网页识别算......
重复网页检测的关键问题是如何有效地提取相似网页内容的特征并对特征进行相似度比较。本文概述了重复网页的定义、检测流程,对重......
针对目前搜索引擎搜索结果中普遍存在大量重复网页的现象,提出了一种基于聚类算法DBSCAN的搜索结果优化算法。该算法选取源搜索结......
Internet用户通过常用搜索引擎获取Web信息时,往往得到了大量的重复网页信息,从而导致搜索效率不高.本文利用MD5算法成熟及可移植......
针对国内2000-2010年之间有关网页去重技术的研究成果进行计量分析,重点从网页结构、网页特征、网页内容、同源网页、元搜索等方面......
互联网的飞速发展使得互联网的数据得到了指数级增长。与报纸、电视和广播这些传统的传输媒体相比,互联网更加高效实时、经济直观,......