基于URL规则的聚焦爬虫及其应用

来源 :浙江大学 | 被引量 : 0次 | 上传用户:woyunwohun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息的不断膨胀,人们越来越离不开搜索引擎。通用搜索引擎如百度、Google给人们提供了很多便利,得到了极大的流行。但是随着人们需求的多样化,和对搜索结果质量的要求越来越高,通用搜索引擎在一些专门化的领域已经不能满足人们的要求,于是垂直搜索引擎就应运而生。尽管垂直搜索引擎很多技术与通用搜索引擎很类似,但是还是有很多自己独特的技术,和一些新的需要解决的问题,聚焦爬虫就是其中的一个重点需要解决的问题。本文首先基于用同一个模板产生的动态网页其内容往往是属于同一个主题的且其URL是非常相似的这个规律,提出了一个基于URL规则的聚焦爬虫(URL Rule Based Focused Crawl,简称UBFC)的算法,即从每个主题网页相关站点中自动学习出代表主题相关网页URL和主题无关网页URL的正则表达式,并用这些正则表达式来指导聚焦爬虫的抓取。接着介绍了UBFC在Nutch系统上的实现和URL正则表达式学习算法。最后我们对UBFC进行了应用和分析,特别是与广度优先搜索爬虫(BFSC)、基本聚焦爬虫(BLFC)的比较分析,表明UBFC在收获率上比后两者有了明显的提高,而且招回率也明显高于BLFC。
其他文献
本文介绍了PKI与CA认证中心的概念、原理、组成及提供的核心服务,详细说明了入侵容忍技术的概念、应用领域及分类。以XTR公钥密码体制为基础,利用shamir(t,n)门限秘密共享方
目前,万林克公司设计的CE1从板设备已经进入比较成熟的阶段,客户提出将处理器集成到从板的需求日益明显,因此,以MPC8321为CPU的四路CE1接口板卡设计至关重要。本文首先对CE1
近年来,由于计算机技术的迅猛发展,教育的教育教学模式和考试模式都产生了质的飞跃。特别是在现代教育的教育教学模式逐步完善的今天,对于考试模式的改革提出了新的要求,编程
无线传感器网络(Wireless Sensor Networks,WSNs)是随着微电子技术、无线通信技术和计算技术等技术的进步而发展起来的新技术,是当前国际上研究的热点领域,有着广泛的应用前
本文开头部分介绍了数字水印的一些相关概念、原理与技术、图像预处理方面的知识等;接着以JPEG图像压缩编码、人眼视觉特性为基础,对基于DCT域的一些图像水印算法进行研究;然
随着信息管理技术的发展,互联网技术与数据库技术的结合为计算机的在人类生活中的应用带来了巨大的影响。在世界范围内,教育都是影响着国富民强的重要行业。在我国,随着高等
学位
JXTA是SUN公司推广P2P技术的主流平台,已经在P2P应用的大多数领域诸如即时通信、数据存储、文件共享、协同计算、搜索引擎等方面得到广泛的应用,但是目前针对P2P视频会议系统
随着互联网+在各应用领域的迅猛发展,图结构数据呈指数级的趋势增长。图匹配作为图结构数据的基础算法,在数据挖掘、识别和检索等方面均发挥着关键作用。因此,构建复杂度较低
随着深度学习和异构计算的不断发展,在多个领域中基于异构计算的深度学习已经取得了突破性的成绩,如图像识别和语音识别。截止目前,最智能的机器学习方法就是深度学习,而CNN