基于主题的多线程网络爬虫系统的研究与实现

来源 :北京邮电大学 | 被引量 : 4次 | 上传用户:www860227
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的蓬勃发展,网络上的信息呈现爆炸式增长。由于互联网上的数据过于庞大,数据增长快而且更新十分迅速,并且具有很强的动态性,所以用户难以快速准确的获取到自己需要的信息。为了从如此浩瀚、巨大的资料库中快速精准地查找用户所需资料,同时尽可能忽略掉不相关的信息,搜索引擎技术应运而生。作为一个辅助人们检索信息的工具、用户访问万维网的入口和指南,搜索引擎的目标是达到尽可能高的网络覆盖率,但是高的网络覆盖率又会导致其为用户提供的无用信息过多。此外传统搜索引擎提供的特定领域的信息检索结果不够专业,无法满足特定领域、特定专业人群的特定需求。为了解决传统搜索引擎的局限性,本文设计并实现了一种基于主题的多线程网络爬虫系统,用于爬取互联网中的新闻和博客页面。本文完成了以下工作:首先,研究传统网络爬虫和已有的主题爬虫的相关技术,并对其进行简单介绍;其次,针对系统在文本去重方面的需求,对文本去重技术进行研究和探讨,提出了基于语义指纹和LCS的文本快速去重方法;再次,对系统进行需求分析,并根据需求分析对系统功能和数据库进行总体设计;最后,对系统的主要功能模块进行了详细设计,包括功能模块详细设计、处理流程设计,描述了系统关键模块的代码实现,并简单展示了系统的运行界面。研究并实现的基于主题的多线程网络爬虫系统支持多任务、多线程爬取页面,支持用户进行参数配置、主题配置。该系统能提供实时的针对某一特定领域的新闻、博客信息的爬取。本文最后从数据抓取速率及主题判断的准确度两个方面对系统的性能进行验证,结果表明本系统能达到较高的网页抓取速率,在主题资源搜索方面具有较高的准确度和覆盖率,同时具备良好的文本去重效果。
其他文献
儿童游戏场所是儿童“游戏”生活行为的载体,儿童通过游戏可以获得其他生活行为难以获得的自发性创造的勇气和能力,养成成为大人所必要的人际关系和自治的能力,即游戏对于儿童有
我国高速公路的建设规模逐步扩大,在各类复杂地质环境下,灌注桩取得广泛应用。作为一种全新的方法,旋挖钻孔灌注取得突出的应用效果,成为推动高速公路建设事业的关键。对此,
观光农业作为一个农业范畴中的新型经济增长点,自产生以来就受到各国的重视,纷纷开展本国的观光农业开发工作。我国的观光农业最早出现在20世纪80年代,随后的30多年里,在东部和南
2017年2月公布的中央一号文件意味着这一年将是农业供给侧结构性改革的关键时点。通过改革来实现农业产业升级的核心突破点必然是创新,只有加快农业研发(R&D)的脚步才能实现
联合应用经股动脉插管肝动脉化疗栓塞术(TAE)和在B超引导下经皮肤肝穿刺瘤内注射无水酒精(PEI)治疗原发性肝癌42例,肿癌面积缩小≥50%26例(61.8%),30%~49%14例(33.3%),【30%或无变化
随着电器制造技术的发展,尤其是大规模集成电路技术的不断进步,电子产品体积越来越小,而其功能却日趋强大,智能化程度不断提高。然而,随着智能电子产品功能的强大,其整体质量
大学精神是大学文化的核心,哈工大精神经历近百年的沉淀,已具有相当深厚的精神内涵和外延,在新时代具有认知导向、情感陶冶、意志凝聚、信念激励等思想政治教育作用。在哈工
采用示范区绿地调查的方法,研究了再生水灌溉对北京地区有代表性的园林植物生长状况的影Ⅱ向,并采集植物叶片和立地土壤进行相关指标的化验分析。结果表明,再生水灌溉区植物生长
研制了一种应用于异型结构的防护材料,具有操作简单、可剥离、可循环使用等优点。采用耐盐雾、耐溶液浸泡、耐老化以及抗拉伸试验等方法对其性能进行了测试和评价,并介绍了其
随着互联网的快速发展,Web技术被广泛使用,上网用户增加,用户产生的数据剧增,这些数据中往往蕴藏着潜在的有价值的规律。对这些数据进行挖掘,将挖掘结果反作用于各网站,能够