针对动态网络数据的分布式增量获取方法

来源 :北京邮电大学 | 被引量 : 3次 | 上传用户:mily39
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网的爆炸性发展,Web已经发展成为站点遍布全球的巨大信息服务网络,越来越多的人也开始把自己的精力和时间都投向了互联网。电商、视频、论坛、微博等都是获取重要数据的来源。无论是自己想要能够及时获取最新的数据来进行研究亦或者是需要批量获取大量的数据来进行相关分析,都需要一个适当高效的方法来支持这些数据的提取。爬虫技术作为大规模提取数据的技术之一,又重新了映入人们的眼帘。人们在使用爬虫技术从互联网上获取大量的数据的同时,也在不断对其做出改进和完善。在经过对爬虫技术、分布式技术、Docker技术、以及Linux相关技术的学习之后,本论文中总计完成了以下工作:首先提出了实用爬虫的设计思路,并重点详细阐述了信息提取模块和数据存储模块的设计与实现方法以及如何解决网站反爬问题。随后搭建了基于分布式爬虫框架PySpider的分布式爬虫集群来代替人工手动分布式爬虫,并解决了搭建集群时遇到的一些Linux服务器相关问题。接着为了改进分布式爬虫框架PySpider的运行效率,设计并实现了一种使用Docker来构建分布式爬虫集群的方法。对改进前后的爬取效率进行了测试,并对测试结果做出了相应的分析。最后为了结合项目中的实际工作需要,将增量爬虫和分布式爬虫框架PySpider进行了结合,最终实现了基于动态网络数据的分布式增量获取方法。在本文的最后,对目前的工作做出了总结,并对未来的工作进行了相应的展望和部署。
其他文献
公共体育场馆的对外开放一方面可以提高其使用率,避免资源浪费;另一方面也为所在地区居民提供了健身的场所,对全民健身工作起到促进作用。对于公共体育场馆的研究众多,其中多
本文运用文献资料法、历史法、因素分析等方法,从体育考古学的角度对古滇国主要墓葬群出土文物进行深入研究。研究表明:古滇文化已具备体育文化构建因子,滇国在重大节日举行
通过查阅大量的文献资料,对竞技健美操运动员身体机能指标评定进行了综述,以期为竞技健美操教练员和科研工作者提供全面的机能评定方法,并能根据运动员的机能状况,科学地调整
为延长泡菜在常温下的保藏时间,提高泡菜的市场销售利润,以泡菜中亚硝酸盐的含量以及泡菜感官评分为评价指标,对泡菜在巴氏杀菌和微波杀菌处理下常温保藏的保藏期进行了研究
从言语行为的概念缺陷及应用局限入手,通过对言语行为的微观解析,提出除言内行为、言外行为和言后行为之外的第四种言语行为——言前行为。言前行为传达单个言语行为在整个言
大学生体质水平持续下降的直接原因在于体育运动不足,而应试教育体制的制约是导致学生参与体育锻炼不足的主要因素,其中"缺乏运动习惯和技能"是根本原因。研究发现:转变高校
为适应知识管理的要求,人力资源管理可将那些作业性的人事管理工作如招聘、培训等进行虚拟管理。但员工招聘实施虚拟管理存在着一定风险,企业必须预先对可能发生的风险有充分的
在上海,有不少优秀的近代建筑,因此上海被人们称为"近代建筑博览馆",曾经屹立在外滩的原上海总会就是其中之一,而现今上海中山东一路2号的亚洲首家华尔道夫酒店就坐落其原址
期刊
加强民族传统体育文化建设的价值在于"使民族传统体育文化发展更好地服务于社会政治、经济、文化建设"。云南民族传统体育文化具有多样性、活态性、原生态性、民俗性、包容性
<正>从当前我国劳动关系的现状来看,劳动关系的动态变化是劳动关系运行的常态,而劳动关系的静止不变则是劳动关系运行的特殊形态。①劳动合同是一种继续性合同,在劳动合同的