基于Linux的python多线程爬虫程序设计

来源 :计算机与数字工程 | 被引量 : 0次 | 上传用户:sngt73
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博作为国内最受欢迎的社交平台,海量的微博数据必然包含丰富的知识资源。如何获取这些非结构化的数据,是进行微博数据挖掘的基础。根据微博网页的特点,提出了一种基于Linux的python多线程爬虫程序设计方法,通过模拟登录新浪微博,自动获取网页内容,再从网页内容中抽取微博和用户数据,以结构化的CSV数据格式存储或存入MySQL数据库,从而获取微博海量数据和用户信息。通过和基于开放API的爬虫程序进行比较,结果表明,从较长时间考虑,基于Linux的python多线程爬虫程序拥有更加优异的性能。
其他文献
综述了国内外铁素体-珠光体型非调质钢发展现状,探讨了锻造温度、锻造变形量、变形速率及锻后冷却速度对非调质钢强韧化的影响,指出了旨在控制先共析铁素体组织参数和沉淀硬化效
黄瓜越夏栽培一直是生产上的一个难题。本研究从砧木耐根际高温性入手,选择夏季种植的耐热瓜类作物南瓜、丝瓜、苦瓜、冬瓜、节瓜等,从嫁接亲和性、成活率、抗病性、产量和品
会议
本选题的最初动因是近年网络传播在危机处理中作用的加强以及这一课题研究成果的缺乏。本文的初衷是警醒政府、组织甚至个人的危机意识,并为其提供危机对策参考。 本文共
在对现代性的批判中,不少中外学者如韦伯、哈贝马斯、贝尔、卡林内斯库、周宪等都已看出现代性的悖论性,尤其是从其内部引申的从“审美现代性”到“后现代”的批判中,更是突
基于设计一个小型B2C电子商务网站,该网站实现让用户选择商品,搜索商品,购买商品以及结账的功能,管理员可添加、删除和修改商品的信息,用户登录信息和订单信息。在具体的程序
农民工是中国经济社会发展过程中的一个过渡性群体。他们的存在缘于我国计划经济时期沿袭下来的城乡二元制度安排还没有完全消失。工资是劳动者付出劳动后获得的报酬。长期以
赫哲族作为我国的少数民族,主要依靠渔猎生活为生。赫哲族音乐主要基于赫哲族人民的劳作生活基础上产生的。随着社会的发展,赫哲族音乐小商品逐渐发展起来。文章主要从赫哲族
本文通过对防锈油、可剥性塑性防锈薄膜两种产品性能特点的试验分析,说明可剥性塑性防锈薄膜在零部件表面及机械设备的工作面进行短期防锈,具有简单、方便、可靠等突出特点,
本文基于生态系统管理理论和现代地理信息技术,结合城市生态化发展研究,从维持城市生态系统健康稳定持续发展的角度,构建了城市生态系统承载力的理论体系。以杭州市为研究对
安史之乱对于诗歌来说,标志着一个新时代的开始。研究安史之乱中的诗歌创作,对于理解盛唐到大历乃至中唐文学的转变有着重要的意义。从研究现状来看,学者们或多论及盛唐诗歌,