论文部分内容阅读
随着互联网技术的不断发展,浩瀚的网络信息资源给人类的生活造成了深刻的影响。于是如何合理利用,并且怎么去完善它们成为了现在的主题关键,因为人们更加注重于如何从互联网上搜索到自己想要的信息,这就需要搜索引擎的支持。然而,正是由于互联网上信息成千上万,信息过于膨胀,才‘使得如何通过网页便捷地查询到目标信息变得很重要。以往的通用搜索引擎很大程度上帮助人们在互联网查找信息更加方便,然而,慢慢地也暴露了很多弊端,大部分情况下不能提供个性化专业化的信息搜索,查准率偏低、内容陈旧等。于是面向主题搜索的第四代搜索引擎应运而生。主题搜索引擎,专门面向特定的对象、能够满足特定领域和人群的要求,更适应于社会形势。主题网络爬虫由此作为一种工具,在主题搜索引擎领域,发挥着越来越重要的作用,正因如此,以主题网络爬虫为核心的主题搜索引擎成为研究的重中之重,并且对于主题网络爬虫的研究,也逐渐成为目前信息挖掘领域的热点。本文就是通过自己对现有搜索引擎发展的基本了解,针对性地开展对主题网络爬虫进行的研究,本文主要通过六个章节来分析主题爬虫的设计和实现。主要研究内容如下:1.主要阐述了课题研究的背景,并对国内外的对主题爬虫的研究现状以及课题的研究意义进行了综述;2.通过介绍搜索引擎的发展,阐述了搜索引擎的基本原理并由此引入了对于网络爬虫的相关介绍,随后还进行了两者之间的对比,重点研究了两种爬虫的体系结构和基本工作原理;3.对主题爬虫领域关键技术进行了详细介绍和对比,同时对于网络中普遍存在的隧道现象也进行了针对性的算法改进并进行了编码实现,最后还对于不同的算法也说明了其相关度计算方式;4.探讨主题爬虫的系统设计与实现,主要包括网页抓取模块、网页分析模块、中文分词、管理等模块等;5.重点对主题爬虫系统的实施办法进行了研究和详细设计,利用该系统主要的数据分析方式,集合实验数据得出分析结果,证明了前述章节中各个理论的合理性与有效性。6.最后对前面章节内容进行的总结与归纳,并提出本文的创新点与局限性。实验表明:对于本人提出的详细改进策略应用到主题爬虫实际工作中具有明显的优越性,不仅保证了较高的收获比,而且极大减少了存储空间和爬取时间。保证了网页的及时更新,此外大量分析还表明’对于用户使用过程中会剔除更多的冗余信息,具有较高的查准率。