基于Scrapy的分布式数据采集与分析——以知乎话题为例

来源 :湖北师范大学学报(自然科学版) | 被引量 : 0次 | 上传用户:diger
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展和网络数据的急速增长,如何对海量数据进行快速有效地采集和分析已经成为大数据分析与应用领域中亟待解决的重要问题。基于Scrapy框架实现主从式结构的分布式网络爬虫,运用开源项目Scrapy-Redis来部署网络爬虫,继而完成对知乎网站话题的爬取与分析工作,共爬取44346个话题、94688个回答和31202个用户数据,并从话题、回答、用户这三个方面应用可视化技术进行多维度分析。结果表明,开放式网络问答社区的话题主题与网络用户性别、地理位置分布及专业背景等因素具有显著的线性相关关系。该
其他文献
目的 观察部分脾栓塞术(partial splenicembolization,PSE)治疗难治性原发性血小板减少性紫癜(re-fractory idiopathic thrombocytopenic purpura,R-ITP)的治疗效果。方法 对24例
基于应收账款的特性,应收账款融资相对于其他债权请求权具有更强的实现可能性,在融资担保方面比普通债权更有优势。但是《物权法》仅用两个条文简略规定了应收账款的问题,对
<正> 中国素称为“铸造之乡”,早在商周时代,铸造工艺即臻于成熟。自古代流传至今的传统铸造工艺有泥型、失蜡法、铁范等。河北泊头、江苏无锡、广东佛山是著名的传统铸
课程标准是开展教学的基本文件,对任课教师完成课程教学的各项任务,培养高素质技术技能型人才有重要的指导意义。为适应高等职业教育改革的需要,结合船舶行业的发展要求和船
用户在线消费评论是电子商务平台客户评论系统的核心内容之一,也是潜在消费者网络购买决策的重要依据。本文运用内容分析和对应分析法对B2C电子商务平台用户评级和用户评论内
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
本实验对利用黑曲霉发酵麦麸制备阿魏酸、肌醇和低聚糖进行了初步研究。结果表明 ,黑曲霉能部分释放麦麸膳食纤维上所束缚的阿魏酸 ,并将多糖和植酸分别水解成低聚糖和肌醇。
Kriging算法通过构造区域化变量的变异模型,并据此求取未知数据的最优线性无偏估计量。结合构建工程地质体含水量参数三维模型的应用,强调在三维环境下分析样本的空间变异结构
目的探讨山区农村糖尿病(DM)患者的健康教育特点以及对策。方法采用自制调查问卷调查258例山区农村DM患者的特征、健康教育需求以及对策。结果山区农村DM患者健康教育需求包