基于Python的豆瓣读书网站用户信息采集

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:hanzedong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
21世纪是大数据时代。随着互联网的发展与普及,人们在互联网上会留下大量的"个人信息足迹"。网络数据量呈指数级增长,与此同时人们获取想要的信息的难度也大幅度提高。搜索引擎的出现和发展提高了用户检索信息的效率。网络爬虫是搜索引擎相关技术的重要组成部分,爬虫技术的发展助推信息资源获取更加高效便捷。基于Python技术对目标网站--豆瓣网用户读书喜好信息(包括用户想读、在读、读过、评论等)进行采集与存储,为后期的个性化推荐方法研究提供数据支持。在数据采集过程中涉及URL去重、模拟登录、翻页等技
其他文献
文章分析了煤矿企业在从如何从源头上提高煤质,降低灰分。从实践出发,设计了一种利用液压千斤顶辅助的煤矿胶带输送机煤、矸分装分运装置,该装置可操作性较强,实现煤、矸分装分运
<正>大家都知道努尔哈赤是个英雄,他之所以能成为英雄,无疑是由于他具备优秀的领袖素质和英勇顽强的拼搏精神。但仅凭这是不够的,我们都知道,成功不能仅凭主观努力,还必须具
会议
社会保障权作为现代社会的基本人权,是人类社会文明长期发展的必然结果,是现代社会中保障人的生存和发展的又一重要的权利,是一项独立的、得到一系列国际人权文件确认的基本
介绍广西水资源保护信息系统的开发情况,阐述其设计思路、开发技术及实现的功能。该软件实用性强、界面友好、流程清晰、易于操作、运行稳定。
本文论述了南渡江河口段防洪规划有关问题,对防洪治导线规划布置原则及其确定、洪潮水位分析计算中有关参数及计算条件的确定、波浪爬高计算等进行探讨。
结合连江11座航运枢纽船闸人字门的改造过程,介绍了人字门底止水、侧止水及中缝止水的改造技术及要点,并总结了改造后的效果及仍然存在的问题。
30多年前,云南省临沧市红土高原依靠独特的自然气候优势,把原产于澳大利亚的山龙眼科坚果属植物引进试种。30余年来,共引进澳洲坚果品种18个,经过对各品种的生长适应性、抗病
为了更好的提高我国城市规划建设,如何加强建筑工程的施工质量便成为了当前最为重要的事情。本文将从暖通工程的施工以及管道的防腐保温技术入手,简单的介绍一些提高这方面质
对浙江省音乐创作事业当下境况罗列梳理,寻找浙江省音乐创作事业与习近平主席在文艺工作座谈会上的讲话精神、中共中央关于繁荣发展社会主义文艺的意见以及上海、广州等国内
<正> 锂离子蓄电池是90年代初期在锂蓄电池基础上发展起来的一种新型的化学电源。由于它具有比能量高、电压高、寿命长、无记忆、无污染等其它化学电源无法比拟的优点,受到电