【摘 要】
:
当今,互联网的爆炸式发展,电子商务的蓬勃发展,带来了海量的数据,面对这个海量、异构的大数据,各电子商务网站都需要从自身平台和其他平台获取相关信息。为了解决这个问题,需
论文部分内容阅读
当今,互联网的爆炸式发展,电子商务的蓬勃发展,带来了海量的数据,面对这个海量、异构的大数据,各电子商务网站都需要从自身平台和其他平台获取相关信息。为了解决这个问题,需要使用到面向主题的聚焦爬虫技术。同时,面对市场的蓬勃发展,随之而来的是爬虫开发工程师的需求成倍上涨,爬虫开发工程师的工资也是日益增多。为了解决这个问题,本文提出并实现了聚焦爬虫的快速开发框架,该框架可以降低开发工程师的学习成本、开发成本、并提升开发质量和开发速度。它的技术主要包括C#,IOC,MVC,HTML,JS,XML等技术。首先分析了快速开发框架以及京东、淘宝等爬虫的开发背景和意义;其次,进行总体设计包括系统平台选型、软件结构设计、系统功能模块划分和数据结构设计;再次,实现快速开发框架与京东、淘宝等爬虫;最后,根据需求与设计的功能验证了爬虫与开发框架的各项技术指标,并对开发框架学习成本和开发成本做了统计,验证其快速开发特性。本论文设计的快速开发框架符合高内聚低耦合的设计准则,具有很高的复用价值,从而能够大幅缩减电子商务爬虫程序的应用开发成本并提高开发效率。
其他文献
朱鹮作为国家Ⅰ级重点保护野生动物,曾一度被认为在野外已经灭绝。自从1981年在陕西洋县再次发现7只野生朱鹮后,经过多年努力,朱鹮种群数量得到了进一步的恢复和壮大。目前,
随着社会经济的不断发展,生产力发展水平的逐步提高,地税稽查管理工作的难度越来越大,工作效率需要进一步提高。采用计算机和互联网技术实现地税稽查管理工作已经成为当前发
近年来我国乡村地区步入高速发展阶段,这得益于两个方面:一方面,我国对于乡村地区的发展愈发重视,出台了一系列助力乡村地区发展的政策;另一方面,城市居民向往乡村地区自然淳
第1部分临床研究——IgG4相关性疾病临床特征分析目的:总结分析IgG4相关性疾病(IgG4-related disease,IgG4-RD)临床表现、实验室、影像及病理特点,以提高对该病的认识。方法:
大数据时代网络的高速发展使市场经济呈现白炽化的竞争状态,新一代的消费者对服务的要求也更细致,如何制定高效的营销策略成为各个公司需要思考的问题。虽然今天有很多方法可
科学技术的快速发展不断促使着各种新型材料的诞生,通过拉压、扭转等传统测试手段表征材料的力学性能已经不适用于某些特定的新型材料/结构,如微纳制造领域中的薄膜涂层、微小焊点等。纳米压入法通过对材料的表面微区进行局部原位压入测试可以获得材料的相关力学性能参数,其具有较强的通用性,但目前纳米压入法在表征工程材料的力学性能方面存在着准确性及有效性问题,相关分析手段仍需进一步完善。本文以无铅焊料合金(SnAg
南荻(Miscanthus lutarioriparius)为我国特有的多年生C4禾本科高大草本植物,具有高生物质产量、高纤维含量等特点,是最具发展潜力的纤维类能源植物之一,同时还是一类兼具经济
毛竹(Phyllostachys edulis)是我国最重要的生态经济竹种,但传统繁殖方式难以实现毛竹优良无性系的快速繁育。因此,建立毛竹组培体系有利于发挥其各方面效益。目前,已有毛竹
疟疾(malaria)是一种由疟原虫感染,通过按蚊叮咬为主要传播途径的严重危害人类健康的传染病。青蒿素(artemisinin,ART)类药物不仅是恶性疟治疗的首选药物,还常用于出现疟疾疫
毛竹扩张是一个较为敏感的生态问题,由于其强大的扩鞭能力,近年来,在浙江、江西、湖南等多地出现毛竹扩张进入周边林分(常绿阔叶林)的现象。毛竹扩张进入常绿阔叶林会引起植