浅析数据挖掘经典算法之Apriori算法

来源 :计算机光盘软件与应用 | 被引量 : 0次 | 上传用户:kbxbx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:数据挖掘当下已成为十分热门的话题,人们对它将随之带来长远的经济社会效益清晰可见。面对现今要处理如此庞大的数据量,高效、准确地挖掘出数据中的有效信息十分必要。在数据挖掘领域中,关联规则旨在找出数据集中项与项之间未知的关系,进而可以从挖掘出的数据对象信息中得到我们需要的信息。Apriori算法是关联规则里的一项基本算法,也是数据挖掘领域十大经典算法之一,可以利用它挖掘数据集中数据项间的潜在关系。
  关键词:数据挖掘;关联规则;Apriori算法;购物篮分析;频繁项集
  中图分类号:TP391.4
  先从著名的啤酒与尿布的案例说起。美国某零售业企业对过去的历史数据进行分析,意外发现很多购买尿布的顾客会购买啤酒。这样的结论按平常的思维根本不能解释,经过仔细调查,商家发现了潜在的秘密:美国的妈妈们习惯将购买尿布的任务交给下班后的小孩爸爸,其中有一些爸爸在买完尿布之后再去购买自己喜欢的啤酒,啤酒与尿布两个不相关联的事物就这样联系了起来。得到这一结论后,这家企业立即采取行动,将啤酒与尿布放在距离相近的位置,大大提高了銷售额。由此,诞生了购物篮分析(Market Basket Analysis)方法,衍生到数据挖掘领域称之为关联规则(Association Rules)。关联规则揭示了事物之间的相互依存性和关联性。关联规则在当今生活中应用十分广泛,如电商根据顾客近期的消费记录向顾客推送相似商品的广告信息,60%购买了牛奶的顾客会购买面包等。
  1 关联规则概述
  1.1 规则与关联规则
  形如“如果…那么…”,通过条件得到结果,就是一项规则。关联规则可以用蕴含式:R:X Y表示,度量一项规则是否够好有两个指标:置信度(Confidence)和支持度(Support)。
  1.2 置信度和支持度
  置信度:表示一条规则值得信赖的程度。如果A表示条件,B表示结果,则置信度的数学表示为Confidence(A—>B)=P(B|A),其含义是在条件A发生的情况中同时条件B发生的概率。
  支持度:表示在总体情况下当前情况发生的概率。如果A、B均表示一种可能发生的情况,则支持度数学表示为Support(A—>B)=P(AB),其含义是A、B同时发生的概率。
  1.3 关联规则的相关概念
  项目(Item):集合I={k1,k2,…,kn}中每一个kn(n=1,2,…,n)叫做一个项目。集合I叫做项集(Itemset)。集合中元素个数为k的项集叫做k-项集(k-Itemset)。
  交易(Transaction):集合I的子集构成的集合称为交易,记为T,T I。每一笔交易有自己唯一的编号,即交易号TID。若干交易构成的集合D称为交易集D,交易集D中包含的交易个数记为count(D)。
  项集支持度:对于规则X Y,Support(X Y)=count(X∪Y)/count(D),X、Y I,支持度的含义就是含X、Y的交易数与总交易数之比。
  项集置信度:Confidence(X Y)=Support(X Y)/Support(X),置信度的含义是包含X、Y的交易与包含X的交易之比。支持度与置信度刻画了用户兴趣程度,一般来说,两者都高表示用户对其兴趣越高。
  1.4 最小支持度与频繁项集
  关联规则作用的集合必须满足一个最小支持阈值,即存在最小支持度(Minimum Support)。所有项的支持度均大于等于最小支持度的集合,称之为频繁项集(Frequent Itemset)。同样也存在一个最小置信度(Minimum Confidence)。最小支持度与最小置信度用来衡量关联规则的最低可靠程度。
  1.5 强关联规则
  满足支持度大于等于最小支持度,置信度大于等于最小置信度的关联规则称之为强关联规则(Strong Rules)。反之,称为弱关联规则。
  2 Apriori算法的实现
  Apriori算法是一种生成关联规则的频繁项集挖掘经典算法,利用该算法,可以找到项之间关系。Apriori算法有两个重要的性质:
  (1)频繁项集的子集一定是频繁项集。
  (2)非频繁项集的超集一定是非频繁项集。
  Apriori算法挖掘的步骤:
  (1)扫描数据库,算出初始项集K1各个项的支持度,即1-项集的支持度,通过最小支持度筛选得到1-项集的频繁集,记为Q1。
  (2)扫描数据库,通过Q1中项与项之间连接∞得到备选项集K2,K2是2-项集。
  (3)通过最小支持度筛选K2得到频繁集Q2,即将K2中不满足最小支持度的项舍去得到Q2。
  (4)通过Q2以(2)中的方法计算出K3,通过K3以(3)中的方法计算出Q4,继续扫描数据库,用(2)(3)中方法继续计算更高层次的频繁项集,(2)中使用的的方法叫做连接(Join),(3)中使用的方法叫做剪枝(Prune),重复步骤连接、剪枝,直到不再产生新的项集为止。例:
  K1={k1,k2,k3,k4,k5},最小支持度Supmin=45%,最小置信度Conmin=45%
  (1)计算k1各项支持度:sup{k1}=50%,sup{k2}=75%,sup{k3}=75%,sup{k4}=25%,sup{k5}=75%。
  ∵sup(k4)  (2)Q1中项与项之间做连接 :K2={{k1,k2},{k1,k3},{k1,k5},{k2,k3},{k2,k5},{k3,k5}}。
  (3)计算K2各项支持度,得到sup{k1,k2}  (4)循环(2)(3)中步骤,最终得到频繁项集{k2,k3,k5}。通过{k2,k3,k5}的非空子集和最小置信度即可产生强关联规则。
  3 Apriori算法的不足
  Apriori算法存在一个很严重的问题是效率低。因为Apriori算法是从1-项集开始逐层计算得到最大项集的,从k-项集通过连接、剪枝到k+1项集需要扫描一次数据库,如果项集中项数越多,则扫描次数越多。比如:项集中含10个项,则要扫描数据库10次,I/O负载特别大。针对它的不足,Jiawei Han等人提出了FP-growth算法,也有人研究出一些改进算法,大大提高了算法的效率。
  参考文献:
  [1]杨文博.零售业数据挖掘的再认识[J].商业时代,2004(11):10-11.
  [2]刘华婷,郭仁祥,姜浩.关联规则挖掘Apriori算法的研究与改进[J].计算机应用与软件,2009(01):146-149.
  [3]赵洪英,蔡乐才,李先杰.关联规则挖掘的Apriori算法综述[J].四川理工学院学报(自然科学版),2011(01):66-70.
  [4]张红艳,都娟.关联规则中Apriori算法的应用[J].数字技术与应用,2011(08):14-15.
  作者简介:侯雲峰(1993.05-),男,四川阆中人,本科,研究方向:计算机科学与技术。
  作者单位:四川大学,成都 610000
其他文献
改革开放以来,外资银行在我国得到了较快的发展,已经成为我国金融体系中一支不可忽视的力量。中国银行业的开放,20多年间经历了从沿海到内地,从外币业务到人民币业务的发展过程。
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
我国加入WTO后,国内金融格局发生了巨大变化,日益激烈的竞争将使国内商业银行不仅仅局限于传统业务。突破传统业务局限的国内保理业务作为新兴银行供应链贸易融资产品在我国迅
动态资本结构理论认为,企业内外环境的变化使得企业目标资本结构的选择成为一个动态过程,信息不对称、制度不完善等市场失灵因素的存在使得企业的实际资本结构偏离其目标资本结
2个80后、1个90后,1位博士、1位硕士、1位本科生-3名清华学子,成为英特尔“可穿戴创想”挑战赛亚洲唯一一支决赛入围队伍并以BabyGuard胎儿检测系统冲击冠军.rn黄肖山、叶帅
期刊
中国的开放式基金从2001年开始得到了迅速的发展,成为了中国市场上最重要的机构投资者之一。而以集合投资、分散风险和专业理财为特点的基金产品也越来越受到投资者的追捧。因
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
期刊
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
【摘 要】:本文主要从三个方面具体的探讨了小学语文教师对文本解读的方略,希望对小学语文教学有所裨益。  【关键词】:小学语文 文本解读 方略  中图分类号:G623 2 文献标识码:A文章编号:1003-8809(2010)05-0033-01    新的语文课程标准(修订版)指出:语文教学是教师、学生、文本、编者之间对话的过程。下面就主要谈谈教师对文本解读的方略研究。  一、教师文本解读应“眼宽
【考点概述】  介词和介词短语用法.是历年高考考查的重点内容。其主要考查相近介词的用法区别,考查介词的固定搭配,即介词与名词、动词、形容词的搭配等。