论文部分内容阅读
数据挖掘与知识发现是从大规模的数据中提取潜在的、极有价值的信息的一门学科,它综合了统计学、计算机科学、管理学等前沿学科。当今社会,该技术已经得到了充分地发展和应用,并成为对海量数据进行信息提取的最为有效的方法。随着各个学科之间相互渗透的程度日益加深,数据挖掘技术与其他学科进行交叉研究已经在学术领域和商业领域得到了广泛的重视。地理事件相关研究已经在地理学得到了充分发展。大量的地理事件模型被提出,极大地丰富了该研究领域。在地理事件挖掘领域,大量专家学者针对不同的研究方向,提出了不同的地理事件挖掘算法。海洋事件挖掘是地理事件挖掘的一个重要研究方向,该研究对于研究区域海气相互作用和全球气候变化来说具有重要的科学意义和实践意义!论文分别从数据挖掘和海洋异常事件这两方面出发,在对地理事件和关联规则挖掘进行分析研究后,针对具有连续性的海洋现象,提出了两个面向海洋异常事件的关联规则挖掘算法,然后选取各种海洋环境要素异常活跃的太平洋区域为研究对象,进行实例挖掘。论文的主要工作分为如下几个部分:(1)详细介绍数据挖掘中关联规则挖掘的研究现状和地理事件的研究现状,其中地理事件的研究现状包括地理事件模型领域的研究现状和地理事件挖掘领域的研究现状。(2)阐述面向事件挖掘的时空事务表的构建流程。首先介绍在海洋环境下的与事件相关的概念与定义,然后详细介绍海洋要素异常状态提取的过程,包括提取月均距平值、海洋要素的离散化以及单一时刻海洋要素异常状态提取。最后,在以上基础上提出所构建的时空事务表,并给出对事务表进行噪音清除的方法。(3)提出处理海洋异常事件的关联规则挖掘算法。论文首先给出关联规则挖掘中经典的Apriori算法的核心思想,即根据支持度确定频繁项集,根据置信度确定强关联规则。在此基础上,结合海洋环境背景分别提出两个关联规则挖掘算法:针对共同发生事件的CE-ARMA算法和针对非同步发生事件的MAETP-ARMA算法。对于CE-ARMA算法,论文给出算法相关的概念与定义,其次,给出与Apriori算法的区别和联系,然后给出算法的详细设计流程,最后以举例的方式来说明算法的运算过程。对于MAETP-ARMA算法,论文给出算法涉及到的一些基本的概念,其次,详细地描述算法与前述算法的区别、联系,然后给出算法的设计步骤,最后,仍然以实例的方式来表述算法的运算过程。两个算法虽然具有Apriori算法的“链接-剪枝”特性,但是却解决了Apriori原型算法无法处理连续性的海洋异常事件的问题。(4)以全球气候变化和区域海洋-大气相互作用中关联关系最为密切的太平洋区域为主要研究区域,利用海表温度、海面高度异常等海洋环境要素数据进行关联规则挖掘和典型事件间的关联规则分析。最后,从时间复杂度和算法效率上对算法进行分析。