Apriori算法研究与应用

来源 :中国新通信 | 被引量 : 0次 | 上传用户:Hai123321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘要】Apriori算法是数据挖掘中关联规则中一种算法,其应用比较广泛,本论文主要介绍Apriori算法的基本思想、操作主要步骤、算法的描述、改进的Apriori算法及其的具体应用。
  【关键词】Apriori算法关联研究与应用
  Apriori算法是一种挖掘关联规则的频繁项集算法,其算法应用比较广泛,尤其在商业领域。关联规则的一个经典的例子就是在超市对顾客购买物品的分析。通过顾客购买各种商品总结发现物品与物品之间的关系,分析顾客在购买过程中的习惯与心理。什么样的商品被顾客频繁地同时购买,这样就可以有助于商家制定营销策略。关联规则的计算依赖于发现相关数据中频繁出现的数据项,寻找数据子集间的关联关系或者一些数据与其他数据之间的派生关系。
  一、Apriori算法的基本思想
  1994年,Agrawal等提出了Apriori算法用于发现数据库中的频繁项集,主要使用逐层搜索的迭代算法,通过扫描数据库得出频繁项集,一般来说,约定第n次扫描得频繁k-项集,记为Lk,首先对事务数据库进行第一次扫描,找出候选频繁1-项集,记为L1,然后利用L1来产生候选项集C2,对C2中的项进行挖掘出L2,即频繁2-项集,一直重复循环,直到无法发现更多的频繁k-项集为止。Apriori算法每挖掘一层Lk就需要对整个数据库进行扫描。如果在求解过程中某次计算Lk为空时,那么整个算法的求解过程自然结束。
  二、Apriori算法的主要步骤
  1.对所有数据进行第一次扫描,生成候选1-项集合C1,计算项集的支持数,得到频繁1-项集L1。
  2.由Apriori-gen(L1)函数中的连接和剪枝两步生成候选2-项集C2,然后进行第二次扫描数据库,计算项集的支持数,得到频繁2-项集L2。
  3.按以上重复,LK进行自连接,生成候选K一项集CK,删除CK中所有的非频繁子集,生成K一频繁项集LK。
  4.重复3直到候选项集为空,不再产生频繁项集,算法终止。
  三、Apriori算法描述
  Apriori具体的算法如下所示:
  该算法的第一次遍历计算第1个项集的支持度,以确定频繁1-项集。然后的第k次遍历包括两个阶段。
  首先,除第1次扫描为单元素项目集构成的,使用Apriori-gen函数产生在第(k-1)次遍历中找到频繁项集Lk-1和候选项集Ck。继续扫描整个数据库,计算Ck中候选的支持度。并且用函数subset来帮助寻找己成为候选项集的子集,同时记录每个候选项集的支持频度,连接满足最小支持度的候选集,最终得到频繁集L。
  四、改进Apriori算法
  通过对算法的分析,我们能够得出结论,Apriori算法存在着两个弊端,一是每次找到频繁项集和候选项集时都要扫描数据库。二是事务数据库D事务量较大时,产生的频繁项集和候选项集数量也会很庞大。为了提高Apriori算法的效率,当前Apriori算法的改进有基于散列(Hash)的方法、AprioriTid 算法、基于数据分割(Partition)的方法、基于采样(Sampling)的方法以及事务压缩技术等,下面介绍几种改进算法,并在此基础上得到自己的改进算法。
  经典 Apriori 算法对候选集进行整理,主要是对其大小进行了压缩,但是Ck的生成过程中还是需要对整个事务数据库进行k 次扫描。所以,在海量的数据库中,经典 Apriori 算法的效率就会大大降低,占用系统的开销也很大。AprioriTid 算法在候选频繁项目集 Ck 的生成过程中,扫描事务时删除其中不需要的,进行压缩和整理事务数据库,这样扫描的效率得到了提高,占用系统的开销也很小。扫描第一次数据库后,候选集将不再使用事务数据库D计算支持度,从第二步开始循环处理生成Tk,直到再没有频繁项集。生成集合Tk的每个成员形式为(TID,{Xk}),该集合与数据库中事务相关,TID是事务标识,其中每个XK都是一个潜在的频繁k-项目集。
  参考文献
  [1]刘晓霞. 数据挖掘技术在高校教学管理系统中的应用研究. 中国海洋大学硕士论文,2010,8~16
  [2]吴青,傅秀芬. 水平分布数据库的正负关联规则挖掘. 计算机技术与发展,2011,(6):113~117
其他文献
现今,市政工程管理的发展正在向数字化、智慧化大举迈进,市政工程行业研究的重心也开始向管理的智慧化、精细化偏移。文章通过某市政水厂改扩建这一实例,对基于BIM 技术和信
目的探讨老年原发性高血压(EH)患者臂踝脉搏波传导速度(baPWV)、超敏C反应蛋白(hs-CRP)、脂蛋白相关磷脂酶A2(Lp-PLA2)及氧化应激指标的变化和意义。方法将170例老年EH患者分
可以说,《深化新时代教育评价改革总体方案》不仅给教育评价体系的全新打造指明了方向,而且完全符合现代教育理念,对于培养"新时代的人才"具有十分重要的意义。长期以来,固化
【摘要】光纤的损耗是根据网络传输距离、光纤的稳定性以及可靠性来决定的。本文主要探讨光纤传输过程中产生损耗的原因,并具体分析相关的解决措施。  【关键词】光纤损耗解决方案  光纤通信系统中光纤的损耗是实际应用中要尽可能降低的一个重要指标,光纤损耗的高低直接影响数据的传输距离和数据的稳定性。因此,了解并降低光纤的损耗对光纤通信有着重大的意义。  一、光纤传输损耗成因  1.持续性损耗。一是光纤的固有损
【摘要】 随着云计算技术、物联网技术、大数据技术等新一代信息技术的发展,兴建智慧城市在现代城市发展中显得越发重要。文中简要介绍了智慧城市的特点,广电智慧城市的应用,并对未来广电智慧城市的发展需要解决的问题进行了简单讨论。  【关键词】 智慧城市 广电网络 云平台 行业应用  智慧城市的建设,大大拓宽了城市内部信息的传播途径,同时也提高了信息传播的效率;使得“互联网+”真正进入了人们的生活当中;实现
阐述了数字化测绘技术的特点,对道路勘察设计中应用数字化测绘技术的基本任务及发展要求进行了总结,重点分析了数字化测绘技术在道路勘察中的应用,需要实现3S融合技术与数字
今年务虚会杭博采用工作坊的形式,邀请了第三方对企业战略解码进行分享。分享中的一个问题令笔者的印象深刻——“你们的产品是什么?”很多人直接反映的是场地、餐饮、旅游、
关于AES密码芯片相应的DPA攻击技术实现方法,而且基于Atmel—AES平台应用DPA攻击技术可以分析获得AES相应的密钥,从而能够证明AES算法对于DPA攻击时体现出来的薄弱环节,同时也可
期刊
伴随着计算机网络的不断发展,网络管理的重要性日益凸显。本文首先总结了网络管理技术的功能进行了归纳,对当前常见的网络管理模技术进行了探讨,并分析了其未来发展趋势。
一、概述  ARS是ATS实现列车自动控制的核心功能。信号系统给信号机设置自动属性,当列车到达接近区段,系统根据列车的车次号信息自动生成进路排列的联锁命令,并将这些联锁命令发送到联锁系统,完成进路排列的自动触发功能。  如图1所示,由人工操作设置S1信号机为ARS属性,当列车运行至触发区段时,系统将根据列车的目的地码办理出S1-S2、S1-S3或S1-S4的进路,对于S1信号机的触发区段可以设置为