主题网络爬虫的分析与设计

来源 :北京邮电大学 | 被引量 : 15次 | 上传用户:wuln2909
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的不断发展,浩瀚的网络信息资源给人类的生活造成了深刻的影响。于是如何合理利用,并且怎么去完善它们成为了现在的主题关键,因为人们更加注重于如何从互联网上搜索到自己想要的信息,这就需要搜索引擎的支持。然而,正是由于互联网上信息成千上万,信息过于膨胀,才‘使得如何通过网页便捷地查询到目标信息变得很重要。以往的通用搜索引擎很大程度上帮助人们在互联网查找信息更加方便,然而,慢慢地也暴露了很多弊端,大部分情况下不能提供个性化专业化的信息搜索,查准率偏低、内容陈旧等。于是面向主题搜索的第四代搜索引擎应运而生。主题搜索引擎,专门面向特定的对象、能够满足特定领域和人群的要求,更适应于社会形势。主题网络爬虫由此作为一种工具,在主题搜索引擎领域,发挥着越来越重要的作用,正因如此,以主题网络爬虫为核心的主题搜索引擎成为研究的重中之重,并且对于主题网络爬虫的研究,也逐渐成为目前信息挖掘领域的热点。本文就是通过自己对现有搜索引擎发展的基本了解,针对性地开展对主题网络爬虫进行的研究,本文主要通过六个章节来分析主题爬虫的设计和实现。主要研究内容如下:1.主要阐述了课题研究的背景,并对国内外的对主题爬虫的研究现状以及课题的研究意义进行了综述;2.通过介绍搜索引擎的发展,阐述了搜索引擎的基本原理并由此引入了对于网络爬虫的相关介绍,随后还进行了两者之间的对比,重点研究了两种爬虫的体系结构和基本工作原理;3.对主题爬虫领域关键技术进行了详细介绍和对比,同时对于网络中普遍存在的隧道现象也进行了针对性的算法改进并进行了编码实现,最后还对于不同的算法也说明了其相关度计算方式;4.探讨主题爬虫的系统设计与实现,主要包括网页抓取模块、网页分析模块、中文分词、管理等模块等;5.重点对主题爬虫系统的实施办法进行了研究和详细设计,利用该系统主要的数据分析方式,集合实验数据得出分析结果,证明了前述章节中各个理论的合理性与有效性。6.最后对前面章节内容进行的总结与归纳,并提出本文的创新点与局限性。实验表明:对于本人提出的详细改进策略应用到主题爬虫实际工作中具有明显的优越性,不仅保证了较高的收获比,而且极大减少了存储空间和爬取时间。保证了网页的及时更新,此外大量分析还表明’对于用户使用过程中会剔除更多的冗余信息,具有较高的查准率。
其他文献
虫草素是传统中草药虫草中主要的生物活性物质,具有抗肿瘤、抗白血病、抗菌抗病毒、免疫调节等多种生物活性。虫草素在蛹虫草(Cordyceps militaris)中含量丰富,且其产生的98%的虫
改革开放以来,我国的城市化进程飞速发展,农村大量的劳动力涌入城市,成为城市中的流动人口。他们的家庭和户口不能随之迁移,这就形成了工作与家庭生活的严重分离。农村人口的
用铀系法测定骨化石样品,对周口店第一地点年代做了进一步研究。数据表明,1—3层的年代比目前的有些提法要早一些。二层下部和四层的年代分别为27万年和30万年左右,出自H地点
废弃的基础设施影响着城市发展和人居环境的提高,面临拆除或改造的命运。如何在对废弃的基础设施改建之后,延续其所在的生态环境、空间环境、文化环境等,与城市的可持续发展相结
低渗致密储层孔喉细小、孔隙空间复杂,尤其针对浅层疏松砂岩储层,在压实成岩过程中由于上覆压力小导致岩石胶结差,很难取得完整岩心,此时进行岩心分析实验耗时长、误差大,而
探讨了地理学语境和世界遗产语境下文化景观概念的发展,指出作为世界遗产的文化景观构成要素可分为表象要素、内在要素和关键技术三大部分.表象要素包括整体景观和载体景观,
在保证城市供给基础之上,农产品质量安全成为事关人民群众身体健康和生命安全的重大问题,已经成为食品安全和公共安全的组成部分。加强农产品质量安全管理工作,是新阶段提高农业
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
在过去的20年间,位于北卡罗来纳州达勒姆市的杜克大学实现着快速的扩张。尤其在它的医学校区,形成了一处户外空间体系,在规范医学校区本身空间秩序的同时,提供了与自然接触、
对开敞空间热环境调控原理进行研究,认为开敞空间对热环境的影响可归纳为冷效应和通风效应2个方面.其中,冷效应包括降低城市热岛、冷溢出效应及切割城市热场;通风效应包括作