基于Python电子商务网站爬虫技术与设计

来源 :科学与财富 | 被引量 : 0次 | 上传用户:txluoyang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:网络爬虫技术是一门非常实用、易学、高效、让人产生成就感的技术。在电子商务高速发展的时代如何利用爬虫技术帮助人们全面、有效、精确地得到有价值的数据,定时抢购某种商品,利用网络爬虫自动地浏览电子商务网站中的信息,精准制定自己的要求,快速查询。
  关键词:网络爬虫;数据;电子商务
  0引言
  在信息高速发展的大数据时代,互联网的信息数据蕴含着巨大的商业价值。如何充分挖掘信息数据的潜在价值,帮助人们在电子商务网站上找到理想的商品,更便宜的生活用品,帮助企业找到隐藏着巨大商业价值的数据,在众多的数据中如何挑选出有价值的数据,成为解决关键问题的数据支撑。
  本文是利用Python语言编写网络爬虫程序,可以自动浏览电子商务网站中的商品信息,然后根据制定的规则下载和提取商品相关信息和商品图片。
  1网络爬虫的相关技术
  1.1什么是网络爬虫
  网络爬虫也可以称为网页蜘蛛,或是网络机器人,可以按照指定的搜索查询设置规则,程序实现自动地下载目标网页,抓取网站的相关文字信息或者图片信息,从而使得用户能更快的检索到所需要的信息,目前爬虫技术广泛用于互联网搜索引擎或其他类似网站,以便获取目标网站的更新内容和搜索数据的方式[1]。
  1.2 HTTP請求
  在Python中实现HTTP请求主要有两个库进行调用。第一个库是Urllib库,第二个库是Requests库,这两种实现HTTP请求的库中,使用Requests库最简单,功能比较全面。Requests库是用Python语言编写的,调用Requests库节约编程工作,简单易调用,可以满足HTTP的测试需求。
  1.3 爬虫框架
  在Python中,有很多的爬虫框架,常见的Python爬虫框架主要有Pyspider框架、Scrapy框架、Cola框架等,本文采用Scrapy。
  使用ScrapyStartprojectpachong1生成一个爬虫项目,可以看到项目生成的爬虫文件目录,文件目录介绍如下:
  (1)在项目文件的根目录下,其中scrapy.cfg文件是项目配置文件,。
  (2)在根目录下存储的item.py是保存爬取数据容器,需要爬取什么数据,在这里进行定义。
  (3)在根目录下存储的pipelines.py文件,可以保存爬取的数据到数据库里。
  (4)在根目录下存储的middlewares.py文件,主要用来对所发出爬虫的请求、收到的响应和spider做全局性的自定义设置。
  (5)在根目录下存储的setting.py文件,是爬虫框架的设置文件。
  (6) 在根目录下存储的spiders文件夹,存放编写的爬虫代码文件和下载的网页文件。
  1.4动态网页爬取方法
  电子商务网店大部分都是动态网页设计,采用AJAX技术,通过后台与服务器进行少量数据交换,实现网页异步更新,这样可以在不重新加载整个网页的情况下,对网页的局部内容进行更新[2]。
  (1)加载网页,查看在URL不变的情况下,未刷新该页面,查看是否能够加载新的网页内容信息。
  (2)所用的爬取网页源码结构与显示并不相同。
  2网络爬虫系统设计
  2.1电子商务网站爬虫的功能
  在电子商务网站中,可以利用网络爬虫有效抓取商品标题、货号编号及商品图片并将其存入本地数据库中。由于电子商务网站爬虫需要抓取的网站页面对应的URL地址不是固定的,而是在时刻变化的,因此,在爬虫抓取网站URL地址的过程中需要特别注意对URL地址的访问方式及记录去重[3]。
  2.2网络爬虫基本流程
  利用Python技术进行电子商务网站爬虫的基本工作流程设置如下:
  (1)首先,把要进行爬虫网络中,选取一些要进行爬虫的种子URL;
  (2)然后把URL存储在待抓取URL队列中;
  (3)读取URL队列中,将目标网页下载下来,存在本地文件夹,将这些已经保存过的URL地址放入已经抓取的URL队列。
  (4)分析下载模块传过来的网页数据,提取出感兴趣的数据。
  (5)在调度模块里,可以把接收到的网页URL数据进行模块解析。
  (6)整个网站爬虫系统抓取URL地址队列,直到循环结束。
  (7)最后可以进行整理下载的数据信息,并存入数据库。
  (8)根据爬取结果从数据库中进行读取,挑选出有价值的商品信息和商品图片。
  3 电子商务网站爬虫实现
  3.1爬虫代码
  使用CrawlSpider根据URL规则爬取是一个非常好的方法,可以使代码非常简洁。
  第一步,生成项目,可以使用Crawl模版生成爬虫Spider.,生成爬虫项目文件夹pachong1, 生成了爬虫文件Chanpin.py。
  第二步,根据需要的数据,定义Item,打开Item.py文件定义要爬取的数据。
  第三步,编写spider文件,打开生成的爬虫文件Chanpin.py。
  (2)用列表推导式生成start_urls
  (3)定义商品列表页解析方法
  3.2使用MongoDB和scrapy_redis搭建分布式爬虫
  在使用之前我们要确保已经安装好了MongoDB并启动了该服务,进入python工作模式。此处主要用于Python数据的保存,我们要安装Python的PyMongo库,运行‘pip install pymongo’命令完成pymongo的安装。
  执行爬虫代码,然后到Robomongo刷新就会看到数据已经保存在数据库里。
  4 结束语
  本次实验通过Python编程实现对电子商务网站进行商品信息的爬虫,能够对指定网页中的商品信息、商品图片、商品介绍文字等进行抓取。经反复测试数据显示,该程序能够有效的实现电子商务商品信息进行批量下载功能,而且提高个性化数据的获取。
  参考文献:
  [1] 谢克武. 大数据环境下基于python的网络爬虫技术[J].软件开发, 2017,18
  [2] 齐文光. Python网络爬虫实例教程[M].人民邮电出版社.2018.7
  [3] 仇明. 基于 Python 的图片爬虫程序设计[J].工业技术与职业教育.2019.3
其他文献
摘 要:当前国内经济形势正在发生巨大的变化,经济金融格局不断该表。金融新生业态在互联网技术的催生下快速诞生与迭代,金融科技新技术作为驱动创新的主要动力,借由技术与业务深度融合的方式,创新催生出层出不穷的商业模式及金融产品,促使银行加快制定具有前瞻性的差异化战略,提高发展质量,迅速完成转型。  关键词:金融科技;银行发展机遇;应用成果  一、金融科技的定义  通过技术手段推动金融创新,形成对金融市场
期刊
摘 要:化工生产的过程中,所涉及到的装置与细节繁杂,并且化工生产的原料大部分都具有一定的危险性。在本文中,将探讨化工生产过程中应用精益生产管理的重要性,并分析应当采取何种措施来优化与完善当前的精益生产管理,以此维护化工行业的稳定发展。  关键词:化工生产;精益生产管理;质量管理  引言:近几年来精益化管理理念已经被广泛的应用于各个行业的生产与管理当中,并取得了优异的成效。而化工行业作为具有较高危险
期刊
摘 要:指纹痕迹检驗技术的应用原理主要包括指纹显现和指纹的独特性,触物即留痕,乳突线和汗液残留是指纹显现的主要机制。同时,指纹是个体的特有身份信息,检验指纹痕迹不仅能够确认持有者身份还能推动案件侦破,为罪犯审判提供有利证据。当今常用的检验手段主要包括物理、化学、光学三方面内容,随着现代技术的发展,计算机和人工智能的研究为指纹检验提供了新的思考。  关键词:刑事案件;指纹识别;指纹检验  引言:  
期刊
摘 要:城投公司是城市建设投资公司的简称,是全国各大城市政府投资融资城投,随着城投企业发展速度加快,投资规模也越来越大,负载率逐渐增高,在这样的发展态势下,原有的城投企业发展模式已经难以持续下去,发展过程中也逐渐产生了许多严重的问题亟待解决。需要从宏观政策适应和微观企业管理两个方向加以改进,并进行转型升级。提出相应的企业发展转型策略,探索适合城投企业发展转型的模式,具有一定参考借鉴价值。  关键词
期刊
摘 要:放射性废物是指含有放射性核素或为放射性核素所污染,其放射性核素的濃度或活度大于审管机构确定的清洁解控水平,并且预期不再使用的物质。由于放射性元素的衰变完全不受外界条件的影响,因此只能通过自身衰变或核反应嬗变降低。本文分析了放射性废物处理原则并就放射性废物处置方法就行了简述。  关键词:放射性废物;处置;水泥固化;玻璃固化  放射性废物是指含有放射性核素或为放射性核素所污染,其放射性核素的浓
期刊
摘 要:经济社会的发展促进了各行各业的变革转型,而供电所作为保障居民用电最基础的场所,需要与时俱进跟上时代的发展步伐。星级供电所的建设对供电所的各方面工作都提出了具体的要求,这就需要供电所从自身实际出发,应用信息化技术提高服务水平,组织建立协调一致的工作体制,规范创新自身经营管理模式。本文通过对星级供电所建设重要性的论述,就新形势下如何创新供电所管理模式进行了探讨,以期实现管理模式与星级建设的双共
期刊
摘 要:本文将结合天津地区的现实情况,应用SWOT分析技术对天津地区发展物流业所处环境的优势、劣势、机遇和挑战进行综合分析,并提出在天津地区物流业的发展战略。  关键词:物流环境;SWOT分析;天津地区;交叉组合战略  近几年,随着经济社会发展和工业化程度的不断提高,节约生产资料和提高劳动生产率这两个利润源逐步被企业最大程度地发挥,人们需要寻找新的利润源泉。在这一背景下,现代物流应运而生,并持续快
期刊
摘 要:车辆维修保养工作技巧的掌握可以让车辆维修工作、保养工作开展质量得到有效提升,延长车辆使用寿命。本文首先对车辆维修保养现存问题进行分析,然后针对问题产生的主要原因,结合实际情况,提出几点车辆维修保养工作技巧,希望可以对业内起到一定参考作用。  关键词:车辆;维修工作;保养工作;技巧分析  随着改革开放的深入发展,我国人民生活水平逐渐提升,现阶段,汽车已经不再是奢侈品,私家车拥有量的不断提升推
期刊
摘 要:我们一般所用到的螺栓都是拥有高强度的特点,而这些高强度的部件都是用于汽车、航空、钢材料等一些对材料质量需求较高的行业。本文通过对如何配置螺栓和螺栓质量把控方面入手,对一些能够影响螺栓连接质量的因素进行分析。再者,通过对螺栓的使用和加工方面分析,通过简述螺栓的一些主要连接方式和连接技术,表明了螺栓对各种产品装配起到了至关重要的作用。在现在这个科技高速发展的时代,各个国家都十分重视各类产品的质
期刊
摘 要:基于我国科学技术的迅猛发展,电气工程技术水平得到大幅度提升,而作为现阶段电气工程中的重要组成,自动化技术的应用对促进电气工程作用的发挥有着重要的影响,可以在提升电气工程质量效率的同时,实现电气工程稳定安全的运行。基于此,本文针对电气工程自动化重要技术进行分析研究。  关键词:电气工程;自动化;安全运行;重要技术  現阶段电气工程中,针对自动化技术的应用,是指电力单位在进行电气工程建设过程中
期刊