论文部分内容阅读
随着计算机技术的普及,商业、政府、企业中积存了大量的原始数据,迫切需要一种有效的从大规模数据库中发现有价值信息的工具和方法。数据挖掘,也称数据库知识发现,是从数据库中发现并提取新颖的、有效的、并能为人们理解的高级处理过程。关联规则挖掘是数据挖掘中的一个重要问题,关联规则挖掘目的在于发现大量数据中项集之间有趣的关联或相关联系,从而生成关联规则。利用这些规则可以有助于发现交易数据库中不同商品(项)之间的联系等。本文的主要工作如下:首先,对经典关联规则算法进行了分析并做出了改进。针对Apriori算法需要多次重复扫描数据库的缺点,利用非频繁项目集的超集是非频繁项目集这一性质,提出一种通过判断K维项目集的K-1维子集的个数来减少数据库扫描次数的方法。在FP-growth算法的基础上提出一种投影算法。当数据库很大时在构造FP-tree的过程中,由于将事务中的频繁项插入到FP-tree的过程是一个严格串行计算的过程,可能会造成性能上瓶颈。本文提出一种通过建立一个小数据库来存储临时节点的并行策略快速构造频繁模式树,提高了算法的效率,减少了不必要的开销。其次,在对数据预处理方法研究的基础上提出一种基于模糊集和聚类的离散化方法。通过对数据进行均值聚类得到期望的中心簇,建立隶属函数。根据隶属函数对数量型数据进行转化,计算其隶属度,用最大值的语义来代替原先的数据,从而完成布尔型转化。该方法可以有效的解决属性划分时边界过硬的问题。最后,对关联规则在遥感数据处理中的应用进行了讨论。随着遥感影像的应用越来越广泛,从海量数据的遥感影像中智能化提取有用信息正在被广泛地研究。本文利用模糊集、聚类、关联规则挖掘等技术对遥感数据进行分析挖掘,并生成关联规则。实验的结果证明该方法可以有效挖掘遥感数据中存在的关联规则。