论文部分内容阅读
伴随着网络技术的不断进步,天气预报在我们的日常生活中,占据着越来越重要的位置。这是因为天气对于日常生活来说关乎很多事情,对于沿海地区和从事海上作业的人们来说,可以通过天气预报了解未来是否有台风或暴雨,减少不必要的损失。那么,如何能够高效的获取并使用天气数据就成为了一个巨大的挑战。为了满足类似这样的需求,网络爬虫应运而生。网络爬虫实际上是指按照用户的意愿,以人类无法达到的速度不间断地执行某项任务的软件程序。首先,本文介绍了网络爬虫的起源,发展历史,工作原理以及应用领域。通过分析主流的传统网络爬虫,来发现传统的网络爬虫是如何进行网络数据抽取的。其次,主要实现了的网络爬虫共有六个模块,分别是:初始种子集合模块;爬行模块;内容分析模块;数据处理模块;数据抓取模块;数据存储模块。其与传统网络爬虫不同的是,其利用了开放的中国天气网API接口进行数据抓取,通过利用深度优先搜索策略,对中国天气网的天气数据进行分析和提取,并将网络爬虫与回溯算法很好的结合。回溯算法的使用有效的对网络爬虫应用程序无法抓取到天气数据以及抓取得到的数据为空值等情况,进行了异常处理,这个算法的使用,不仅很大程度上优化了网络爬虫的功能,而且大大提高了抓取天气数据的效率和准确率。最后,网络爬虫程序实现了开放接口的天气数据的抓取工作,并利用网络数据抽取方式将天气数据进行了解析和提取,然后将提取到的有用数据保存到MYSQL数据库中,以便日后用于数据挖掘和历史天气的研究。