论文部分内容阅读
为了获取用于社交网络研究的新浪微博用户数据,本文改进了传统网络爬虫,设计了一个基于Python的新浪微博爬虫系统。该系统使用scrapy多线程爬虫框架,实现了模拟登陆、动态网页抓取和克服微博反爬虫机制等功能,抓取后数据被存储在My SQL数据库中,便于后续分析。实验结果表明,该爬虫系统获取数据的实行性和效率高,稳定性和准确性较好。