主题网络爬虫的研究和实现

来源 :武汉理工大学 | 被引量 : 16次 | 上传用户:lzg31142003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息时代的不断发展,广泛分布于因特网上的各类信息深刻地影响着人类生活的各个方面。如今,人们能够通过浏览网页的方式来查询其所需的各类目标信息。与此同时,由于因特网上的信息成千上万,信息量处于高速膨胀的状态,使得如何通过网页便捷地查询到目标信息这一问题更为凸现。在信息多元化发展的趋势之下,通用搜索引擎在很大程度上为人们在因特网上查找信息提供方便,但也暴露出种种不足。例如:查准率偏低、信息内容相对陈旧、信息分布范围不均衡等。因此,主题搜索引擎技术成为新的研究方向,它专门为特定领域、特定人群或特定需求提供具有一定价值的信息资源和检索服务。主题爬虫作为主题搜索引擎的信息抓取部分,负责对与用户感兴趣的某一主题相关的网页进行抓取。本文主要通过六个章节来分析主题爬虫的设计和实现。第一章主要阐述了搜索引擎的发展过程,网络爬虫在搜索引擎中的作用,简述了国内外的研究现状以及课题的研究意义。第二章是本文的理论基础:首先阐述了搜索引擎的基本原理,随后基于对比通用爬虫和主题爬虫找出其差异之处及其各自的特点之上,重点讨论了两种爬虫的体系结构和基本工作原理。第三章主要讨论了主题爬虫领域关键技术的研究和改进,包括文本特征项的提取方法、搜索策略以及网页消重技术的研究,并提出基于主题相关度的PageRank算法的改进。第四章主要探讨主题爬虫的系统设计与实现,主要包括网页抓取模块、网页分析模块、中文分词以及URL管理等模块。第五章描述了主题爬虫系统的界面与操作细节,以及利用该系统进行的实验过程,通过对实验数据的分析,证明了前述章节中各个理论的合理性与有效性。第六章对前面章节内容进行小结与归纳,并提出本文的创新点与局限性。实验结果证明:该主题爬虫在稳定运行的同时有着更好的收获率,极大地减少了时间和存储空间,在时间上的优势保证了网页的及时更新,此外用户查找时得到的冗余和无用信息也较少,具有更高的查准率。
其他文献
在海洋工程中,海水中Cl-、SO42-和Mg2+会侵蚀进入钢筋混凝土内部,造成混凝土的膨胀破坏,严重影响混凝土结构的耐久性。BFRP筋具有优良的耐腐蚀性能,可以避免钢筋锈蚀带来的耐
《模拟集成电路CAD》是模拟集成电路设计方向的一门核心基础课。针对该课具有理论性及工程特征突出等特点,笔者根据多年集成电路设计公司经验以及多年授课体会,在理论教学、实
知识经济时代的到来,新的科学手段在教育中的应用,必然会给现代教育带来新的变化和特点,在全面实施素质教育的今天,人们的教育观念正在发生质的变化,教师和学生之间的关系也应从旧
针对多机器鱼运动控制中视觉信息丢失的情况,提出了一种运动补偿控制算法。首先,针对机器鱼识别状态,阐述了一种基于事件频率的二次滤波法判定策略。在此基础上建立了半闭环
教学评价就是对教学活动进行价值判断,是与教学过程同步的基本环节。20世纪80年代中期以来,我国基础教育评价进行了一系列的改革尝试,但与当前实施的新课程的要求相差甚远,它不能
词语教学是小学语文的重要组成部分,也是阅读教学的主要内容之一,如何让学生理解词语、掌握理解词语的方法,是小学语文教学中的一项重要内容。本文通过自己多年的教学经验,总结出
语文是一门非概念思维的学科,注重的是情感的体验、感悟。“情感”在语文教学中有特殊的作用,它是连接教师、文本、学生的纽带和桥梁,是培养感悟能力的“催化剂”。怎样去点燃学
从心理学角度来讲,兴趣是一种带有情感色彩的认识倾向。它以认识和探索某种事物的需要为基础,是推动人去认识事物,探求真理的一种重要动机,是学生学习中最活跃的因素。有了学习兴
2020年10月14日,长江航道局组织召开2020-2021届枯水期航道养护工作研讨布置会提出,本届枯水期长江干线初步确定41处重点水道,将安排150余艘航道日常维护工作船舶、15支测绘
目的探讨小补心汤总黄酮(代号XBXT-2)抗抑郁作用与肠道菌群-肠-脑轴相关免疫炎症的关系及机制。方法制备大鼠慢性不可预知性应激(CUS)模型,采用行为学方法——糖水偏爱、新奇