论文部分内容阅读
在当今这个大数据时代,数据往往存储在网络中的多个数据源中,按照传统的数据挖掘方法,需要将数据集中或融合后才能进行有效处理,但在实际应用中存在着各种问题:数据规模庞大、数据结构多样化、隐私保护等。因此,如何在不进行数据集中或融合的前提下对多数据源的数据进行有效地分析挖掘是当前数据挖掘中的一个热点问题。关联规则是数据挖掘中的一个重要研究内容,通过关联规则挖掘可以获得数据之间或属性之间的内在关联,为智能推荐、智能预测等后续工作提供可靠的数据支持。目前,研究者们对静态的集中式数据的关联规则挖掘方式进行了研究,并形成了较完善的研究结果。对于动态数据关联规则的挖掘,虽有一些研究,但还不完善。其中关联规则增量挖掘是动态关联规则挖掘的一个重要方向。现有的高效处理关联规则增量挖掘的算法都是不生成候选项集的,此类算法都是以空间换时间的思路实现的,如何在时间效率不变或变化不大的情况下优化空间是关联规则增量挖掘的一个新问题。除此以外,随着数据多样化的出现,针对不同数据类型的关联规则挖掘也成为了目前的研究热点。本文深入研究了关联规则增量挖掘和多源数据关联规则增量挖掘,主要内容如下:1.关联规则增量挖掘。首先,从现有的关联规则增量挖掘算法中分析比较出了一种时间效率较优的Can树算法。然后,分析研究发现该算法存在空间占用率较高的缺点。针对该缺点,分析出导致该缺点的原因与预排序顺序有关,并提出了基于数据量顺序排序构建Can树的改进方法,从而降低了该算法的空间占用率。最后,通过实验验证了该方法能够有效提高Can树算法的空间效率,并提高了时间效率。2.多源数据关联规则增量挖掘。首先,分析了多源数据的三大特点:多样性、分散性和异步性,以及多源数据挖掘应注意的问题。然后针对多源数据的其中两个特点:分散性和异步性,提出了结合分布式关联规则挖掘和关联规则增量挖掘两类算法的多源数据关联规则增量挖掘算法。最后,通过多组实验验证了该算法可以解决多源数据的分散性和异步性,并针对第二次挖掘比较了多种关联规则增量挖掘算法,选取了其中较优的一种作为算法中的二次挖掘算法。