论文部分内容阅读
本文介绍了国内外沙尘暴研究现状和气象数据挖掘现状,及数据挖掘的过程模型、标准和规范、数据挖掘的技术、数据挖掘步骤等基础知识,并对Microsoft的数据挖掘规范OLE DB for DM和数据挖掘扩展(DMX)做了简要介绍。国内气象数据挖掘的研究尚处于起步阶段。气象数据挖掘具有较大的挑战性。其原因有二:其一,气象数据是一种复杂数据,即是空间数据,又是时间序列数据,且其存储格式多种多样;其二,气象数据挖掘任务比较复杂,专用挖掘算法比较少。通过分析用户的需求,首先确定了沙尘暴数据挖掘的任务,并提出解决该任务的数据挖掘算法。从西北241个站46年的气象观测资料中选择与任务相关的数据,并对数据进行清理转换后建立数据仓库。开发了可视化的交互式数据挖掘界面,使数据清理转换、数据挖掘、模式评估、挖掘结果显示等都在一个可视、交互的平台下进行。本文尝试将常用的挖掘算法如关联分析、回归分析、聚类、空间分析等应用于气象数据挖掘,得到了一些有用的知识。本文为了解决气象领域问题,采用简化的DBSCAN方法实现了“圆形区域连续算法”和“简单时间连续算法”;并针对基于密度的聚类算法存在漏簇的不足,提出了ε-圆扫描法、矩形扫描法等算法,这两个算法可以准确地在样本区域内发现是否存在满足条件的高密度连续区域;本文提出了一个基于约束的具有簇评价功能的连阴雨算法(Continuous RainFall & Overcast,CRFO),该算法采用分层聚类的思路实现,可以有效地解决气象领域中时间连续问题;本文也提出可折叠任意时段周期值抽取算法,该算法解决了OLAP钻取、简单SOL汇聚无法实现有折叠资料的汇聚功能。利用沙尘暴数据挖掘系统,发现了一些中国西北地区沙尘暴很重要的特点,这些知识可以帮助气象科研人员或气象预报员研究或预报沙尘暴的起源、移动、出现时间、出现次数等,这说明数据挖掘技术在气象数据挖掘方面的应用是有效果的。利用数据挖掘技术对气象数据实施挖掘是可行的,但要在气象领域广泛使用,还需要针对气象数据和气象工作的特点,提出解决气象问题的专有算法,并要充分利用领域知识对模式作评估,还要解决气象数据挖掘效率低的问题。