论文部分内容阅读
随着信息技术的飞速发展,数据达到前所未有的规模体量。大规模的数据在给人们的日常生活、工作来了便利的同时也产生了许多问题,这主要体现在人类的数据收集、数据组织能力和数据处理能力之间存在非常大的差距,缺乏行之有效的数据分析和挖掘方法,人们无法充分利用收集到的数据,从而导致了“数据爆炸但知识贫乏”的现象。频繁模式挖掘通常是大规模数据分析的第一步,多年以来都是数据挖掘领域里非常活跃的一个研究主题。频繁项集挖掘是频繁模式挖掘中的一个重要任务,频繁项集挖掘是在给定数据集中挖掘支持度满足预定义的最小支持度阈值的项集,通过挖掘数据集中的频繁项集,能够分析数据的关联规则。传统的频繁项集挖掘方法存在一个问题是频繁项集的数量非常庞大,计算和存储这些频繁项集都是一个不小的挑战,而且挖掘如此大量的频繁项集通常是没有必要的。针对这个问题不少科研学者提出了很多基于条件约束的频繁项集,如闭频繁项集挖掘、最大频繁项集挖掘等。本论文通过对大量文献的研究整理,详细的介绍了频繁项集挖掘的背景、发展以及研究现状,分析了目前频繁项集研究领域的热点问题。论文在现有的研究基础上提出了一种最大多样频繁项集的概念,最大多样频繁项集满足最大频繁项集的要求,因此可以避免频繁项集挖掘过程中产生的大量的频繁子项集,此外,本文定义的最大多样频繁项集引入项集多样性的概念,项集多样性可以用来评价项集中各个项的类别差异大小。由于最大多样频繁项集具有的最大性约束和项集多样的两个特性,从数据集中挖掘到的最大多样频繁项集的数量通常不会特别多,但是项集中的各个项却具有非常大的类别差异,这样能够有助于挖掘到用户感兴趣的频繁项集。为了快速地从大规模数据中挖掘最大多样频繁项集,本论文提出了两种挖掘算法:基础算法和基于边界检测的最大多样频繁项集挖掘算法。基础算法是在已有的最大频繁项集挖掘算法的基础上扩展得到的,它能够挖掘数据集中的最大多样频繁项集,但是挖掘过程中需要先挖掘数据集中所有的最大频繁项集,因此算法效率较低。基于边界检测的最大多样频繁项集挖掘算法是在本论文设计的一种数据结构FP*-tree的基础上提出的。FP*-tree是对交易数据集的一种压缩存储,它能提供挖掘最大多样频繁项集所需要的信息。基于边界检测的最大多样频繁项集挖掘算法在使用FP*-tree挖掘最大多样频繁项集时,会计算包含每一个项的频繁项集多样性上界,优先挖掘多样性较大的最大频繁项集,在挖掘过程中算法会计算挖掘到的最大频繁项集的多样性并检测数据集中潜在的最大频繁项集的多样性上界,通过检测潜在的频繁项集多样性上界算法能够感知挖掘到的最大多样频繁项集是否满足挖掘需求。当确认已经挖掘到所需的最大多样频繁项集时,算法就可以结束并返回结果。为了评估本论文提出的最大多样频繁项集挖掘算法的效率,本论文设计了多组对比实验,分别测试了在不同条件下基础算法和基于边界检测的最大多样频繁项集挖掘算法在挖掘最大频繁项集时的性能表现,实验结果表明本论文提出基于边界检测的最大多样频繁项集挖掘算法在挖掘最大多样频繁项集时具有显著的优势。