面向建材信息的网络爬虫系统的设计与实现

来源 :北京交通大学 | 被引量 : 10次 | 上传用户:liyqi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的发展,电子商务发展迅猛,然而建材类电子商务一直发展较为缓慢,是电子商务的一片蓝海。很多公司也发现了这一商机,并通过各类建材电子商务网站瓜分市场份额。但是,这些电商网站往往覆盖地区、产品种类有限,难以达到其他品类成熟电商的规模,对国内建材类电子商务的现状影响不大。市场急需一个能够覆盖全国各地区、网罗各类产品的网站。然而各个公司各自为战,很难达成共识共享资源。基于上述背景,本文分析、设计并实现了网络爬虫系统,该系统将Internet上诸多同类建材信息网站的关键信息爬取下来,并整合发布在本公司自己的网站上。为建筑企业和建材供应商提供及时、全面、真实的信息服务,从而为建筑企业与建材供应商创造双赢价值。本文介绍了爬虫系统的基本工作原理和相关理论知识,然后对系统进行了需求分析,提出系统需求,并对系统进行功能性需求分析、非功能性需求分析和可行性分析。最后在系统需求分析的基础上,提出了系统的总体设计方案,明确了系统的总体流程,对系统各个模块进行设计。本文的爬虫系统不仅能够抓取静态页面的内容,对于JS (JavaScript)动态加载的页面也能够通过JS解释引擎Rhino实现页面抓取功能,并采用正则表达式编写页面的解析模板完成对页面关键信息的抽取。针对图片中保存的某些关键信息,本文利用OCR (Optical Character Recognition)图片识别引擎Tesseract实现对这类信息的识别。在页面抓取过程中,为了提高域名解析的速度,本文采用了域名解析缓存。为了提高爬虫系统抓取数据的质量,避免重复抓取,本文采用布隆过滤器对URL (Uniform Resource Locator)进行去重。本文还实现了网络爬虫管理系统,用以对爬虫系统工作的各个环节进行监控和管理。本文设计并实现的面向建材信息的网络爬虫系统能够满足用户的基本需求,该系统己在广联达软件公司上线运行,能够成功抓取建材类供求信息,并将所得数据存储在Mongo数据库中,目前已抓取超过2亿条数据记录。
其他文献
笔者热衷于祖国之国粹"中医中药",发现其在家禽的疫病防治中有不可取代的优势,本文加以例证,以倡导一种"绿色、环保、保健"的疫病防治模式。
随着科学技术的进步,互联网以日新月异的姿态不断发展壮大。随之而来的是传统大众媒体逐渐式微,人们对讯息的接收大都依赖互联网通过新媒体实现。广告群体,尤其是年青一代,便试着
针对板料成形过程中的回弹现象,采用Dynaform软件对回弹过程进行数值模拟分析,提出了一种可以减小金属冲压过程中回弹的工艺方案,并采用正交试验法从摩擦系数、板料厚度、压
春季,是畜禽繁殖、生长旺盛的季节,也是动物疫病流行的季节。进入3月份以后,气候逐渐转暖,给病原微生物的繁殖滋生提供了环境条件,也给动物疫病高发流行创造了条件,对动物的
为了研究绵羊的快速增殖,于1959年春拨出东北细毛羊母羊40余只,进行了二年三产的试验。这些绵羊已在1959年的2月及10月产羔(两次),并在1960年1月份完成了第三次配种,将于5—6
艺术简历:本科学历,获艺术学学士学位、中国陶瓷设计艺术大师、景德镇陶瓷书画院执行院长、景德镇学院国教中心特聘教授、中国国家画院张慧民工作室画家,2010年被授予江西省新
目的:研究曲安奈德联合雷珠单抗治疗视网膜静脉阻塞继发黄斑水肿的临床效果。方法:选取反复持续视网膜静脉阻塞继发黄斑水肿患者40例(共40只眼),采用随机分组法分为对照组和
乡(镇)村动物防疫队伍是动物免疫工作实施的主要力量,又是执行免疫工作的基本单位,他们工作的好坏,直接影响整体防疫工作效率和质量,不容忽视。因此,抓好基层动物免疫工作是十
大数据时代的来临,正在改变世界的发展格局,数据成为衡量国家竞争力、市场领导力、科技驱动力的主要工具,成为各行各业释放社会生产力,催生创新力的最重要的资源。