论文部分内容阅读
数据挖掘(Data Mining)是致力于数据分析和理解,揭示数据内部蕴藏知识的技术。它是未来信息技术应用的重要目标之一。经过数据挖掘领域研究工作者十几年的努力,出现了许多数据挖掘的新概念、新方法,特别是最近几年,一些基本概念和方法趋于清晰,数据挖掘的研究正向着更加深入的方向发展。像其它新技术的发展历程一样,数据挖掘技术也要经过概念提出、概念接受、广泛研究和探索、逐步应用和大量应用等阶段。从目前的现状看,大部分学者认为数据挖掘的研究仍然处于广泛研究和探索阶段,迫切需要在基础理论、应用模式、系统构架以及挖掘算法和挖掘语言等方面进行创新。 分类作为数据挖掘的一个重要研究课题,在统计学、机器学习、神经网络和专家系统中得到了较早的研究,但其中大部分都是内存驻留算法,通常假定数据量很小。随着数据库中数据量和维数越来越大,建立高效的、适用于大量数据集的分类算法已成为数据挖掘面临的一个挑战性问题。近年来,数据挖掘界提出一种新的知识模式,称作跳跃显露模式(JEP:Jumping Emerging Pattern),用来表示两个数据集之间的重大差异,并出现了一些基于JEP的分类算法。研究表明,这些基于JEP的分类算法具有很好的预测准确性,而且数据量和维数都是可规模化的。但是,这些基于JEP的分类法通常需要挖掘大量的JEP,因此影响了它们的效率,且增加了分类算法的复杂性。本文提出一种特殊类型的JEP,称作最有效的跳跃显露模式(SJEP:most Significant Jumping Emerging Patterns)。分析结果表明,SJEP具有很强的区分能力,足以用来建立精确的分类算法。由于已有的算法都不能直接挖掘这种SJEP,本文给出了一种可以在两个数据集上双向挖掘SJEP的有效算法,并讨论了如何建立基于SJEP的分类算法(SJEP_Classifier)。与已有的基于JEP的分类算法相比,基于SJEP的分类算法不仅使用的JEP数量少,预测精度高,而且可以在很短的时间内(通常为若干秒)完成学习阶段。实验结果表明,本文的分类算法(SJEP_Classifier)在平均预测精度方面也优于CBA和C4.5等分类算法。 总之,本文在分析、归类现有数据挖掘研究成果以及原型系统的基础上,进行了数据挖掘应用系统体系结构和基于SJEP的分类理论模型以及算法方面的研究,所设计的算法在挖掘效率和对大型数据库挖掘的可用性方面具有潜在的应用前景。