论文部分内容阅读
数据挖掘能够发现隐藏在数据中的有用信息,在数据分析领域扮演着重要角色,特别是在零售业,每天需要分析从各个分店产生的大量销售数据,用来帮助商家做出有利的销售决策,比如清单编制,产品布局和推广。为了使销售业务能够按计划顺利进行,对于各分店不断产生的销售数据,能够进行高效的分析是非常有必要的。作为数据挖掘的一项重要技术,频繁模式挖掘可以发现由项目构成的有用模式。在通常的挖掘算法中,如Apriori,FP-Tree,用户需设定一个阈值来从数据库中获取有用模式,但是现实中,用户很难给出一个适当的阈值。为了解决这个问题,Top-k频繁模式挖掘算法被提了出来。不同于设置阈值,用户只要设置希望得到的模式数量k,就可以得到价值排名靠前的k个模式。该算法利用向下闭合特性来缩小搜索空间,可以大大提高挖掘的处理效率。现实应用中比如超市零售数据分析中,商品利润和出现次数具有重要的意义。但是Top-k频繁模式挖掘算法不考虑上述特性。尽管可以借用效用值挖掘的概念加以解决,但它却不满足向下闭合特性。因此,无法利用向下闭合特性来提高效用模式挖掘的效率。近年来已经有人提出超估的方法,但是会产生大量的候选模式。在高效用模式挖掘算法中,减少候选模式的数量是个重要的课题。受此启发,本文提出了借助精确和预估算效用值提高阈值缩小候选集的Topk高效模式挖掘算法,本文的主要工作有:①提出了3种利用项目集的精确和预估有效值的策略来提高构建全局树时的效用阈值,缩小树的规模,节省了时间。②在构建UP-Tree之后,使用了一种新的策略再次提高阈值,使产生的候选模式更少。③与UP-Growth和TKU算法相比,本文的算法在识别最终的Top-k高效模式时,需要判断的候选模式和扫描数据库的次数更少。④对现实数据和合成数据的综合实验表明,本文算法具有较好的时间和空间性能。文章第一部分绪论介绍了研究背景,现状和内容;第二部分,简单介绍了数据挖掘的基本知识;第四部分,详细讲解了算法的过程;第五部分分析和展示了实验的结果。最后做了总结。