重复网页相关硕士博士期刊学术论文

重复网页相关论文

Web Infomall中网页的获取与存储方法研究

Web上信息就像一条河流,从我们身边不停流过.已经有很多人认识到这些信息的价值,从而展开了对Web信息多方面的研究.该文阐述的内容......

学位

网页搜集系统同义主机重复网页 Web InfoMall 网页存储系统

搜索引擎系统网页消重的研究与实现

Internet的迅速普及和飞速发展,使人们面临着一个信息的海洋,快速从中获得真正重要的信息变得至关重要。搜索引擎(主要指全文搜索......

学位

搜索引擎网页消重客户代理 Lucene

特定领域小型搜索引擎的研究与实现

　　面向特定领域的搜索引擎是信息检索领域的一个重要研究课题，虽然该领域已经取得许多研究成果，但是目前基于信息安全学科特定知识......

会议

特定领域信息安全学科搜索引擎系统信息检索中文自动分词 Linux平台重复网页知识领域

Web挖掘在军事地球物理中的应用

本文介绍了Web数据挖掘在军事地球物理信息查询中的应用,分析了网页的链接结构,介绍了HITS页面排序算法,优化搜索引擎返回的页面顺......

会议

军事地球物理网络信息数据挖掘

天罗Web信息采集系统中的性能优化

随着Web信息的爆炸性增长,对Web信息采集的性能提出了巨大的挑战.本文介绍了天罗Web信息采集的总体结构和性能优化策略.在性能优化......

会议

信息采集系统优化策略页面采集性能重复网页页面刷新集中分析分布式多线程采集器爆炸性增长陷阱实验结构存储

基于特征句抽取的网页去重研究

去除重复网页一直是信息检索领域的一个待解决的问题.本文基于双语文章的内容,提出了一种抽取特征词和特征句,判别跨语言重复网页......

会议

网页去重特征词特征句跨语言

基于SVM的重复网页检测算法

互联网中存在大量重复网页,降低了用户体验并使搜索变得复杂化。为解决这些问题,把相似网页的比较转换成二元分类问题,使用监督学......

期刊

SVM 重复网页支持向量机编辑距离最长公共子串

基于后缀树的中文新闻重复网页识别算法

针对识别中文新闻重复网页传统方法的不足，提出以后缀树作为基本数据结构，依据新闻网页的标题性和时间性，构建中文新闻重复网页识别算......

期刊

后缀树重复网页 Ukkonen算法匹配统计算法 Suffix tree Duplicated Web page Ukkonen algorithm Matc

基于内容特征码的重复网页检测方法探析

重复网页检测的关键问题是如何有效地提取相似网页内容的特征并对特征进行相似度比较。本文概述了重复网页的定义、检测流程,对重......

期刊

重复网页相似网页特征码算法

基于网页聚类的搜索结果优化算法研究

针对目前搜索引擎搜索结果中普遍存在大量重复网页的现象,提出了一种基于聚类算法DBSCAN的搜索结果优化算法。该算法选取源搜索结......

期刊

网页相似度聚类搜索结果 DBSCAN算法重复网页 Web page similarity clustering search result DBSCAN

MD5算法在消除重复网页算法中的应用

Internet用户通过常用搜索引擎获取Web信息时,往往得到了大量的重复网页信息,从而导致搜索效率不高.本文利用MD5算法成熟及可移植......

期刊

搜索引擎重复网页 MD5 Searching EnginesRepeated PagesMD5

国内网页去重技术研究:现状与总结

针对国内2000-2010年之间有关网页去重技术的研究成果进行计量分析,重点从网页结构、网页特征、网页内容、同源网页、元搜索等方面......

期刊

重复网页同源网页网页去重

基于关键词的搜索引擎网页去重算法研究

互联网的飞速发展使得互联网的数据得到了指数级增长。与报纸、电视和广播这些传统的传输媒体相比,互联网更加高效实时、经济直观,......

学位

重复网页搜索引擎网页关键词 Nutch

看过本文同时还关注