基于PageRank算法的主题爬虫研究与设计

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:Devgame
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的信息在过去几年爆炸式的快速增长,这种快速增长和Web的动态变化特性使得我们在Web上完成有效的信息获取变得十分重要。网络爬虫是一个自动程序,它能有条不紊地通过扫描网页然后下载经由这些网页链接到达的所有页面。当用户只需要一些面向主题的信息时,通用网络爬虫往往显得力不从心,因此如何让用户只获取自己感兴趣的主题信息变得非常重要。在这种形式下,面向特定主题的主题爬虫成为了研究热点。本论文的研究就是围绕这些热点技术展开的。   本文首先简单介绍了搜索引擎的分类以及通用搜索引擎的组成部分,论述了主题爬虫的工作原理以及与通用爬虫的区别,研究并探讨了主题爬虫的关键技术以及常用的解决方法。   由于主题爬虫的搜索策略是实现主题搜索引擎的一个重要模块,它直接决定爬虫的爬行方向,制约着搜索引擎的工作质量和效率问题,所以本文主要讨论主题爬虫的搜索策略。考虑到互联网上存在的“隧道现象”所导致的很难兼顾查全率和查准率的问题,本文在详细研究现有搜索策略和PageRank算法的基础上,把现有的个性化PageRank算法和PageRank下界值等概念运用到主题爬虫中,提出了一种基于锚文本内容和PageRank算法的搜索策略。通过该算法主题爬虫能够尽可能多的爬取主题相关且Rank值高的网页,即在查全率与查准率之间达到较好的平衡。   最后应用本文提出的搜索策略实现了一个简单的主题爬虫系统并进行了实验分析,以开放式分类目录搜索系统ODP中随机选择的主题作为实验环境,对广度优先搜索策略、基于锚文本内容的搜索策略以及本文提出的基于锚文本内容和PageRank算法的搜索策略进行了测评比较,实验结果表明本文提出的搜索策略在大部分主题上拥有很好的性能,即较好的兼顾了查全率和查准率,使主题爬虫在保证查全率的同时采集主题相关的高质量网页。
其他文献
近年来,随着多传感器信息融合技术的发展,红外与微光图像的融合已成为图像处理领域研究的一个热点,在夜视图像研究领域更是备受关注。红外热像仪输出的图像反映的是目标场景
Web服务作为实现面向服务计算的标准技术,是一个平台独立的、松耦合的、自包含的、基于可编程的Web的应用程序,它采用开放的XML标准描述、发布和配置这些应用程序,由于其对异
网络流量分类识别是互联网研究领域的重要分支。互联网流量的深入分析研究对于网络扩容和优化、网络安全、上层用户行为分析等具有重要意义。近年来,互联网的持续演进和发展给
无线传感器网络的节点能量非常有限,全部由自带电池供给难以更新,因此在路由设计时如何最大化地节省节点的能量以延长网络寿命是无线传感器网络发展亟待解决的关键技术和重要问
在经济全球化的背景下,选择合适的合作伙伴共同完成生产任务,是保证生产顺利进行和企业最终盈利的关键。合作伙伴的选择包括综合评价和优化组合两个主要环节。科学有效的综合
随着信息时代的来临以及互联网络的飞速普及,人们的生活习惯也随之发生了很大的变化,把更多的时间和精力从报纸刊物转向了网络媒体。网络媒体已经成为了人们获取信息的重要途
煤炭是我国能源的主体,我山西省矿产资源丰富,素有“煤矿之乡”之称,在全国的煤炭生产中煤储量中占有非常大的比例。在煤矿安全生产中,危害性最大的是瓦斯突出,因此对瓦斯突
随着自然语言和互联网的飞速发展,全球每天都有成千上万甚至上亿的各种新闻事件发布,而大部分是英文新闻,在汉语国家中也有大量的中文新闻公布,如何从这些大量英文新闻中快速的识
随着RFID技术的日渐成熟,应用范围越来越广,其安全和隐私问题也越来越受人们关注。目前RFID安全机制主要分为两类:一类是物理安全机制,另一类是设计安全认证协议。物理安全机
由于现实生活中很多实际问题的发生多为各学科相互作用的结果,如何处理交叉学科数据是业界的棘手问题。粗糙集理论作为一种新的软计算方法,它能有效的对不完备地、不精确、不