基于网络爬虫的新浪微博数据获取方式研究

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:nacle
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0时代的到来,微博正逐步成为公共信息传播的主流媒体,如何高效率地获取完整的微博数据显得极为重要。该文以新浪微博的评论内容为研究对象,利用模拟登录[1]下网络爬虫、调用新浪微博API[2]以及通过微博手机版[3]中接口等三种方式进行数据采集,对比采集速率以及采集到的内容。实验表明,在采集微博评论时可以使用新浪微博API获取关注用户最新微博ID,使用模拟登录的方式针对这些ID获取对应微博评论,在保证数据完整性的前提下实现了采集速率的最大化。
其他文献
我们再从技术统计资料进行分析:1、进攻三区控球率的高低, 一方面反应队伍的打法特点, 另一方面反应队伍的进攻能力强弱。 资料显示,我队在三场比赛中的控球率和对方差距较大, 哥
报纸
【正】结核性脑膜炎是颅内感染中病情较重疗程较长的一种常见病,目前对于此病的治疗虽然以异烟肼,利福平为主,但其病死率仍高,尤其是晚治型结核性脑膜炎有部分的后遗症或残疾
根据生态旅游的三大基本内涵,利用Delphi法、层次分析法等方法构建了基于社区的生态旅游效益评价体系,以武夷山自然保护区为例进行实证研究,结果表明武夷山自然保护区森林生
电力的稳定发展是社会发展的保障,输电线路作为电力系统重要的组成部分,在电力的供应中占据着重要的地位。随着我国电网规模的不断扩大,输电线路的覆盖区域也越来越广,但大部
发酵饲料是一种绿色、环保、新型饲料,可代替抗生素改善动物健康,提高饲料的营养价值及利用率、改善养殖生态环境。该文介绍了发酵饲料的分类、生产工艺、作用以及其在断奶仔
本文基于计算机图像处理技术,设计了乳品原料微生物含量自动检测系统。该系统利用显微镜和图像采集仪器,获得乳品的样本图像,然后依据乳品微生物的图像特征,识别出每帧图像中
王沂孙是宋末元初的著名词人,词作数量虽然不多,却在清代词坛享有很高的声誉,非常值得我们关注。本文试图结合时代环境,从社会文化心理学的角度对王沂孙前期词做初步的解析,
随着我国教育信息化、数字化概念的提出,教育信息化资源以极快的速度大量涌现,导致信息呈现爆炸式增长,用户在面临海量信息时,需要花费大量的时间和精力去筛选所需的资源。本
企业是由员工组成的,只有具有高素质的员工才能够为我们企业的发展带来较大的推动作用,这样一来,市场上就开始衍生出了"人力资源"一词,即指能够在一定时期之内能够为我们企业
基于起源学和思想史的梳理同样可以发现,号称普世价值的新自由主义实际上是对自由主义的简单化返祖。文章继上篇从本体论角度阐述自由的本质内涵后,中篇进一步从发展史角度梳