论文部分内容阅读
数据挖掘(DM)就是从大型数据集中抽取知识,其目的是发现深藏在一般数据之中的有用模式。本文介绍了DM的任务和方法,总结了DM的研究现状,指出关联规则发现和复杂数据挖掘是DM领域的研究热点。由于可利用的数据规模太大以及其多维的本征,使得对开发高效的、可扩展的并行算法的需求日益增强。然而,设计这样的算法是很具挑战性的。数据挖掘的一个重要方面是关联规则的挖掘。挖掘关联规则的算法大致有两类:一类是基于Apriori的,另一类无需产生候选集,而前者在进行频繁项目集计数时需要产生候选集。本文在深入研究现有算法的基础上,对其中具有较好效率和可扩展性的并行算法——IDD和HD算法,引入近似算法,有效地解决了算法中一个非常重要的问题:候选项目集在各个处理器节点之间的划分问题,从而尽可能使得各节点负载平衡,最终达到提高算法效率的目的。文中给出了两种近似算法及其性能证明,其一是在线算法,其二为离线算法,并对改进算法进行了复杂性分析。对于无需产生候选集的算法。本文分析了高效的FP-growth算法在共享存储体系结构下,并行建立频繁模式树和并行挖掘频繁项目集的实现方法,指出了算法存在由于任务分配不均而导致处理器之间负载不均衡的缺陷。基于此,本文提出了一种动态负载平衡机制,实验数据表明:采用新调度策略的并行算法,其效率有明显的提高。序列模式发现在DM领域的地位越来越重要。以基因分析为例,其中许多重要的知识发现任务需要对DNA和蛋白质序列进行分析。这类任务中最耗时的操作是计算序列数据库中所有子序列(称为序列模式)的发生频度。发现序列模式的算法主要有三类。其中基于投影树的频繁模式发现算法在性能上明显优于其它算法,但仍然需要大量的计算时间。于是我们基于投影树算法,给出了其数据并行模式(DPF)和任务并行模式(TPF),接着进行了算法的复杂性分析。同时,理论推导表明:DPF具有一定的可扩展性,TPF具有较好的可扩展性。实验数据揭示:这些算法都能获得较好的加速比,而且任务并行模式具有更好的性能。 <WP=6>针对图像数据预处理中的数据压缩和特征提取两个重点,介绍一种基于连续Hopfield神经网络的非数值并行算法应用于图像数据挖掘的聚类预处理过程。在实现数据聚类的同时,达到对图像矢量量化压缩的目的。而矢量量化压缩的过程,实际上又可以把最终得到的码书看成是提取一幅图像的特征向量(矢量)组的过程。我们的工作重点在于在对图像数据进行数据挖掘之前,先对之进行预处理,通过数据压缩,并把压缩过程和图像的特征提取联系起来,达到简化图像表示的目的,从而为下一步的处理(多媒体数据挖掘处理)提供支持。