论文部分内容阅读
关联规则挖掘最早由Agrawal、Imielinski和Swami于1993年提出<(4)>.1994年,R.Agrawal和R.Srikant提出了有名的Apriori算法<(5)>.随后,人们提出了大量有关关联规则的算法,很多属于Apriori算法的变体,而且大多是针对关系数据库和事务数据库的.目前对关联规则挖掘的研究已经扩展到了空间数据库,其中包括遥感图像数据.由于遥感图像数据量很大,而已有的关联规则挖掘算法扩展性很差,所以必须寻求新的算法.本论文旨在结合遥感数据的特点,采用P-树来表示遥感图像数据,将用于关系数据库和事务数据库的挖掘算法进行适当修正,使之能适合遥感数据的挖掘.本论文将要采用的P-树是由美国北达科他州立大学William Perrizo等提出来的一种数据结构<,(6)>.它可以实现数据的无损(lossless)压缩;并且,通过把对数据库的运算转换成对P-树的运算,提高数据挖掘的速度.论文结构如下:第一章简单介绍数据挖掘的定义、相关学科以及分类.第二章介绍当前遥感数字图像的数据格式,着重介绍TIFF格式.TIFF格式是计算机图像文件的一种通用格式,由于结构灵活,已经成为图像文件格式的一种标准.目前许多扫描仪和桌面印刷系统都支持该格式.TIFF的结构极其灵活;但是,只要分离出TIFF文件中的标记(tag),并对这些标记加以分析,就可以很容易地还原出图像,从而对该图像进行各种处理.第三章将详细介绍P-树的基本概念及其运算.用P-树表示遥感图像,在一定条件下,可以实现对遥感数据的压缩.可以采用多种数据结构来存储P-树.对P-树的运算主要有与(And)、或(Or)、求补(Complement)三种,它们合称P-运算.针对不同的存储方案,有不同的P-运算实现方式.在这一章的将详细讨论各种P-运算的实现.在第四章,作者通过一个具体的实例,实现从遥感图像挖掘关联规则.这一章首先介绍关联规则挖掘的基本概念、常用算法;然后结合遥感图像的特点,提出了几种剪枝策略(Pruning techniques)最后将实现具体遥感图像上的关联规则挖掘.第五章是本文的结论部分.P-树是一种新颖的数据结构,它特别适合用来表示空间数据.P-树看上去简单,但它的存储方式以及建立在存储方式之上的P-运算实现方式可以有多种形式.由于时间等各方面的限制,作者只探讨了其中的部分方式.