Apriori算法分析与探讨

来源 :学习导刊 | 被引量 : 0次 | 上传用户:superdog22
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:本文详细分析了关联规则数据挖掘Apriori算法的思想和步骤,给出了算法的伪代码。现在Apriori算法已广泛应用于金融、医疗以及教育等领域,所以,作为教育工作者,有必要对其进行进一步的研究。
  关键字:Apriori算法;数据挖掘;关联规则
  中图分类号:TP 391
  文献标识符:A
  引 言
  Apriori算法[1]是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。目前,Apriori算法广泛应用于各个领域,所以对其进行研究具有很重要的意义。
  1.Apriori算法的思想
  Apriori算法是由Agrawal和 Strikant提出的一种最有影响的关联规则挖掘算法。该算法的过程是针对给定的交易数据库DB,用户在初始阶段设定最小支持度Smin和最小置信度Cmin,然后找出频繁 1-项集的集合L1,使用逐层搜索的迭代方法,通过k-项集生成(k+1)-项集,而找每个 Lk都需要扫描一次数据库[1][2]。
  2. Apriori算法的步骤
  2.1生成频繁项集
  在数据挖掘过程中为生成Lk,可通过连接和剪枝两步过程来完成[3] [4]。
  1、连接:为找 Lk,通过 Lk - 1与自己连接产生候选 k-项集的集合。该候选项集的集合记作 Ck。设l1和 l2是 Lk - 1中的项集。记号Li[j]表示 li的第 j 项。为方便计,假定事务或项集中的项按字典次序排序。执行连接 Lk – 1 Lk - 1;其中,Lk - 1的元素是可连接的, 如果它们前(k-2)个项相同; 即, Lk - 1的元素 l1和 l2是可连接的,如果(l1 [1] = l2 [1])∧(l1 [2] = l2 [2])∧ ... ∧(l1 [k-2] = l2 [k-2])∧(l1 [k-1] < l2 [k-1])。条件(l1 [k-1] < l2 [k-1])是简单地保证不产生重复。连接 l1和 l2产生的结果项集是 l1 [1] l1 [2]... l1 [k-1] l2 [k-1]。
  2、剪枝:Ck是 Lk的超集;即,它的成员可以是,也可以不是频繁的,但所有的频繁 k-项集都包含在 Ck中。扫描数据库,确定 Ck中每个候选的计数,从而确定 Lk(即,根据定义,计数值不小于最小支持度计数的所有候选是频繁的,从而属于Lk)。然而,Ck可能很大,这样所涉及的计算量就很大。为压缩 Ck,可以用以下办法使用 Apriori 性质:任何非频繁的(k-1)-项集都不是可能是频繁 k-项集的子集。因此,如果一个候选 k-项集的(k-1)-子集不在 Lk - 1中,则该候选也不可能是频繁的,从而可以由 Ck中删除[3][4]。
  生成频繁项集的算法描述:
  输入:事务数据库 D;最小支持度阈值。
  输出:D 中的频繁项集F。
  SetOfItemsets generateFrequentItemsets(Integer minimumSupport)
  {
  F[1]={frequent items};
  For (k=1,F[k]<>0;k++)
  {
  C[k+1]=generateCandidates(k,F[k]);
  For each transaction t in databases
  {
  For each candidate c in C[k+1]
  {
  If t contains c then c.count++
  }
  } //扫描数据库
  For each candidate c in C[k+1]
  {
  If c.count>=minimum_support F[k+1]= F[k+1] U {c} //选择符合条件的候选项
  }
  }
  While k>=1 do
  {
  F=F U F[k];
  k- -;
  } //合并候选集
  }
  2.2产生强关联规则
  一旦从数据库 D 中找出频繁项集,可从中产生强关联规则,强关联规则满足最小支持度和最小置信度。对于置信度,可以用下式,其中条件概率用项集支持度计数表示。
  其中,support_count(A∪B)是包含项集 A∪B 的事务数,support_count(A)是包含項集 A 的事务数。根据该式,关联规则可以产生如下:
  (1)对于每个频繁项集L,产生 L 的所有非空子集。
  (2)对于L的每个非空子集 s,如果 ,则输出规则“s ? (l-s)” 。其中,min_conf 是最小置信度阈值。
  由于规则由频繁项集产生,每个规则都自动满足最小支持度。
  生成关联规则算法:
  For each frequent itemset f, generate all the subset x and its
  Complimentary set y=f-x
  If support(f)/support(x)> Minimum_probability, then x=>y
  Probability = Support(f)/Support(x)   3. Apriori算法应用实例
  设事务数据库D如表1所示,最小支持数为2,最小可信度为60%求数据库D频繁项集和关联规则的过程如下。
  表1 事务数据库示例
  TID Item
  T1 I1,I3
  T2 I1,I2,I3,I5
  T3 I2,I3,I4,I5
  T4 I1,I2,I3
  T5 I1,I4,I5
  T6 I3,I5
  数据库D的频繁1项集F={{I1:4},{I2:3},{I3:5},{I4:2},{I5:4}};
  候选2项集C2={{ I1,I2}:2,{ I1,I3}:2,{ I1,I4}:1,{ I1,I5}:2,{ I2,I3}:3,{ I2,I4}:1,{ I2,I5}:2,{ I3,I4}:1,{ I3,I5}:3,{ I4,I5}:2};
  由于最小支持数为2,则频繁2项集L2={{ I1,I2},{ I1,I3},{ I1,I5},{ I2,I3},{ I2,I5},{ I3,I5} ,{ I4,I5}};
  候选3项集C3={{ I1,I2,I3}:2,{ I1,I2,I5}:1,{ I2,I3,I5}:2};
  频繁3项集L3={{ I1,I2,I3},{ I2,I3,I5}};
  候选4项集C4={{ I1,I2,I3,I5}:1},频繁4项集L4= ;
  所以,该事务数据库D对应的频繁项集是L={{I1},{I2},{I3},{I4},{I5},{ I1,I2},{ I1,I3},{ I1,I5},{ I2,I3},{ I2,I5},{ I3,I5} ,{ I4,I5},{ I1,I2,I3},{ I2,I3,I5}} 。
  关联规则及置信度如下:
  I1=>I2 置信度为support_count(I1,I2)/ support_count(I1)=50%;
  I1=>I3 置信度为support_count(I1,I3)/ support_count(I1)= 50%;
  I1=>I5 置信度为support_count(I1,I5)/ support_count(I1)= 50%;
  I2=>I3 置信度为support_count(I2,I3)/ support_count(I2)= 100%;
  I2=>I5 置信度为support_count(I2,I5)/ support_count(I2)= 66.7%;
  I3=>I5 置信度为support_count(I3,I5)/ support_count(I3)= 60%;
  I4=>I5 置信度為support_count(I4,I5)/ support_count(I4)= 100%;
  I1I2=>I3置信度为support_count(I1,I2,I3)/ support_count(I1,I2)= 100%;
  I1=> I2I3置信度为support_count(I1,I2,I3)/ support_count(I1)= 50%;
  I2=> I1I3置信度为support_count(I1,I2,I3)/ support_count(I2)= 66.7%;
  ……
  则满足最小支持度和置信度的所有关联规则如下:
  I2=>I3 ,I4=>I5, I1I2=>I3 ,I1I3=>I2 ,I2I5=>I3 置信度100%;
  I2=>I5,I2=> I1I3,I2I3=>I1,I2I3=>I5,I3I5=>I2,I2=> I 3I5 置信度66.7%;
  I3=>I5 置信度60%;
  4.结束语
  本文详细分析了关联规则数据挖掘Apriori算法的思想和步骤,给出了算法的伪代码,通过一个实例,演示了该算法的挖掘过程。现在Apriori算法已广泛应用于金融、医疗以及教育等领域,所以,作为教育工作者,有必要对其进行进一步的研究。
其他文献
摘 要:音乐是最古老的艺术形式的一种,深受人们的喜爱。这门特殊的艺术形式一直以来都能深深地打动和感化着人们,关于音乐与其他的艺术形式有什么区别,人们对其有着不少观点。本文说明了音乐美学的含义,分析了音乐的特殊性,并从几个比较常见和简单易懂的角度去分析音乐美学观点下音乐的特殊性。  关键词:音乐美学;音乐;艺术特殊性  0 引言  音乐作为一种特殊的艺术形式,深受人们喜爱。从艺术的起源方面进行分析,
期刊
笔者在学习以及教学过程中发现三阴交是被举例最多的交会穴,也是临床上最常用的穴位之一。全国中医药高职高专院校教材《经络与腧穴》[1]对三阴交的记载如下:足太阴、少阴、厥阴经交会穴,定位在小腿内侧,当足内踝尖上3寸,胫骨内侧缘后方。主治:(1)痛经,月经不调,崩漏,带下,阴挺,经闭,不孕,滞产,产后血晕,恶露不尽,遗精,阳痿,阴茎痛,疝气,遗尿,小便不利,水肿。(2)肠鸣腹胀,泄泻,便秘。(3)失眠,
期刊
摘要:在现有的电工电子实训的教学现状分析基础上,对传统的教学模式、内容进行了改革与创新,对电工电子实训的课时、实训内容、教学模式方法等方面进行了优化与充实。提出了一些有效的完整的,并且适合理工科专业特色的电工电子实训教学模式的方法。  关键词:电工电子;实训;创新;教学  电工电子实训是一门以实践为基础的课程,它是培养高等院校学生走出课堂、走向实践、展现综合素质的重要学习环节,它能够通过实际生活中
期刊
摘要:构建和谐高效的师生关系,实现有效数学课程,是重要的研究课题。本文结合教学实践,提出了构建和谐的师生关系,实现有效课堂的一些具体措施。  关键词:和谐;师生关系;高效课堂  教学质量是学校的生命线。在基础教育阶段,课堂教学总课时占据了学生大部分在校活动时间,课堂是学校教学工作的主阵地,学生知识的获取与能力的提高基本上是在课堂内完成的。课堂教学是其学校生活的最基本构成,它的质量,直接影响学生现状
期刊
摘要:我国农村工业是中国工业体系的重要组成部分。“十五”以来,我国农村工业在前二十年发展积累的基础上进入全面转型阶段,在发展中产生一些新的有价值、有创新、可推广的新鲜经验。本文在借鉴前人研究成果的基础上,重新挖掘、整理和总结了这些经验。  关键词:经济转型 农村工业 发展规律 经验认识  农村工业化也称乡村工业化,是指乡村地区以工业为主的非农产业的发展过程。表现为乡村居民职业构成中从事非农产业的人
期刊
摘要:21世纪素质教育的提出与发展,使得学校开始重视自己的教育模式,力求适应社会需要为社会提供德智体美全面的人才。在这些大环境的素质教育背景下,种种现实问题制约着素质教育的展开与发展,如:初中英语教学方法落后,收效甚微。在这种情况下,改善初中英语教学现状,提高学生的英语学习水平,就成为了当前我们教育中亟待解决的问题。  关键词:初中、英语教学、现状、对策  在当今世界全球化步伐快速发展的情况下,英
期刊
2山西省,中国人民公安大学  摘要:应急指挥最重要的是表现在紧急情况下,运用正确的指挥而能充分发挥有限的应急力量,控制事态的发展,体现出应急指挥在突发情况下减少损失、保护生命财产安全的作用。现在,应急指挥已经应用到各个领域中,每时每刻都在发挥着重大作用。特别是2010年我国面临事故频发、自然灾害连绵不断、灾情严重的严峻局面,应急指挥的效率显得尤其重要。  关键词:公安、应急指挥、体系研究  在现代
期刊
摘 要:本文以黑龙江省为例,对少数民族地区农村小学英语师资现状的分析,充分说明了,目前,少数民族地区农村小学英语师资无论从数量上还是质量上都无法满足农村小学英语教学发展的需要。笔者认为,应该从充教师数量,鼓励优秀人才到民族地区农村小学任教;提高学历层次,鼓励教师参与各类培训;提升教研能力,鼓励教师加大科研参与力度等方面使少数民族地区农村小学英语师资现状得到根本改善。  关键词:英语教师 少数民族地
期刊
【摘要】作者海明威通过《老人与海》这一作品向世人展现了主人翁的硬汉精神,给很多作家和读者带来了巨大的影响。本文将从虚无主义的角度来对《老人与海》这一作品进行讲解,从而分析作品中主人翁的崇高意志。并挖掘作品中被隐蔽的虚无主义色彩,从而明确作者海明威的虚无主义思想,加强人们对海明威其他作品的认识。  【关键词】海明威;《老人与海》;虚无主义  多年来,读者从海明威的《老人与海》中得到了启示就是无论何时
期刊
摘 要 西周的婚姻制度在中国法制史上比较完备,对当今的婚姻制度也具备重要的借鉴作用。本文对比西周时期婚姻制度和中国当代婚姻制度,剖析西周时期婚姻制度与中国当代婚姻制度的相似点及不同点。  关键词 西周 婚姻制度 中国当代  婚姻制度是指被一定社会所公认并被人民普遍遵循的婚姻家庭关系的规范统体系。中国法制史上,西周特别重视婚姻的立法活动,所以西周时期的婚姻制度比较系统完善,对夫妻关系的成立、解除以及
期刊