基于API天气数据抓取的特定网络爬虫的研究与实现

被引量 : 0次 | 上传用户:schunter
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着网络技术的不断进步,天气预报在我们的日常生活中,占据着越来越重要的位置。这是因为天气对于日常生活来说关乎很多事情,对于沿海地区和从事海上作业的人们来说,可以通过天气预报了解未来是否有台风或暴雨,减少不必要的损失。那么,如何能够高效的获取并使用天气数据就成为了一个巨大的挑战。为了满足类似这样的需求,网络爬虫应运而生。网络爬虫实际上是指按照用户的意愿,以人类无法达到的速度不间断地执行某项任务的软件程序。首先,本文介绍了网络爬虫的起源,发展历史,工作原理以及应用领域。通过分析主流的传统网络爬虫,来发现传统的网络爬虫是如何进行网络数据抽取的。其次,主要实现了的网络爬虫共有六个模块,分别是:初始种子集合模块;爬行模块;内容分析模块;数据处理模块;数据抓取模块;数据存储模块。其与传统网络爬虫不同的是,其利用了开放的中国天气网API接口进行数据抓取,通过利用深度优先搜索策略,对中国天气网的天气数据进行分析和提取,并将网络爬虫与回溯算法很好的结合。回溯算法的使用有效的对网络爬虫应用程序无法抓取到天气数据以及抓取得到的数据为空值等情况,进行了异常处理,这个算法的使用,不仅很大程度上优化了网络爬虫的功能,而且大大提高了抓取天气数据的效率和准确率。最后,网络爬虫程序实现了开放接口的天气数据的抓取工作,并利用网络数据抽取方式将天气数据进行了解析和提取,然后将提取到的有用数据保存到MYSQL数据库中,以便日后用于数据挖掘和历史天气的研究。
其他文献
环境试验设备和高温高压灭菌装置是保证产品质量以及人民健康免受病菌侵害不可或缺的试验设备。因此对该类试验设备及其温度、湿度测量的准确性检验验证,就愈显重要。准确的获
语码转换是双语社会一个非常普遍的现象,在外语或二语课堂中亦频繁出现。然而,对于这一现象是否应该在外语或二语课堂中发生,辩论之音不绝于耳。一些学者认为,外语教师应该采用“
产业是具有某类共同特性的企业集合,是介于单个厂商和整个市场之间的、连接微观个体和整个宏观经济的桥梁,在整个经济运行和发展中起着非常重要的作用。现代各国经济发展经验表
“中国热”的兴起带动着“汉语热”的蓬勃发展,学习和掌握中国话成为世界上越来越多人的梦想。对外汉语教材的编写和使用无疑对汉语教学的发展起着重要的作用。近些年来,我国对
通过购物篮分析,实施收银小票关联首推策略,连锁药店可以大幅提升父联销售和顾客回头率,最终带来顾客、药店、供应商几方多赢的格局。
刑事司法领域出现的冤假错案严重破坏了法律权威及公众信任,这不禁让我们质疑,难道错误的司法裁决发生之后就没有相应的纠错救济机制予以保驾护航吗?答案显然不是。一方面,从诉讼
首秦公司是一家大型钢材制造企业。近几年来,首秦公司对研发新产品和开拓新市场两个方面倾注了很多的心血,但企业的利润并没有因此得到一个很好地提升。经过调查研究,首秦公司每
目的探讨咳嗽性晕厥的危险因素及治疗策略。方法对6例咳嗽性晕厥的患者分别进行心脏超声、心电图、头颅CT、脑电图、睡眠呼吸监测、肺功能、血气分析等检查。结果6例均为男性
随着汽车工业的快速发展,环境污染和能源危机的问题变得越来越严重。因此,大力推进电动汽车的发展以推进交通能源转型,已经成为我国以及世界上其他主要的发达国家重点发展的对象
目的 :探讨儿童自我意识与行为问题之间的关系。方法 :采用Piers-Harris儿童自我意识量表、Conners儿童行为问卷对 2 0 6 3例儿童进行问卷调查 ,然后探讨行为问题儿童的自我