论文部分内容阅读
近些年来,人们收集数据、存储数据的能力得到了空前的提高,我们可以轻而易举地获得海量数据,在这些海量数据背后隐藏着许多重要的信息,理解它们已经远远超出了人的能力,这就需要一种强有力的数据库分析工具。数据库知识发现(KDD)就是为顺应这种需要而发展起来的一门学科,它用来进行数据分析,发现重要的数据模式,并且已经成为一个重要而活跃的研究领域。数据挖掘被视为数据库知识发现过程的一个基本步骤,它已引起了信息产业界的极大关注,其主要原因是“数据丰富,但信息贫乏”,为了有效利用这些海量数据,如何将它们转换为有用的信息和知识就成为当务之急。随着计算机和网络技术的发展,我们可以方便地获取Internet上的各种信息资源,传统的集中式数据挖掘已经不能满足需要。企业的数据资源往往规模大、动态增长并且存在于地理上分布的各个数据库中,把所有数据集中在一起进行处理既不可取,也不可行,这使得数据挖掘系统必须具有分布式挖掘的能力。基于分布式信息资源的数据挖掘日益受到人们的关注,成为信息科学研究领域中一个新的课题。关联规则挖掘是近些年来研究较多、应用也最为广泛的数据挖掘方法。关联规则挖掘于1993年由Agrawal等人提出,它最初是以分析事务数据库中项与项之间的联系为目标,后来的研究者们对问题原型进行了多方面的改进和扩充。关联规则挖掘问题的关键是频繁项集的产生,Apriori算法是一种经典的挖掘布尔关联规则的算法,本文将用它在局部站点来产生频繁项集。分布式数据环境下的关联规则挖掘算法中,时间开销主要体现在两方面:(1)频繁项集的确定;(2)网络的通讯量。本文提出了一种基于Web Services框架的改进算法DARM(Distributed Association Rules Mining),成功地克服了FDM算法中可能造成频繁项集丢失的缺点,保证了数据挖掘结果的完整性和正确性,同时也减少了站点间的通讯量。