关联规则挖掘综述

来源 :科学与财富 | 被引量 : 0次 | 上传用户:edisonye
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:近年来国内外学者对关联规则进行了大量的研究。为了更好地了解关联规则的挖掘技术,对研究现状有更深入的了解,首先本文对数据挖掘技术进行了介绍,接着介绍了关联数据挖掘的基本原理,最后对经典的挖掘算法进行分类介绍。
  关键词:数据挖掘;关联规则;算法;综述
  1.引言
  数据挖掘是从海量的数据里寻找有价值的信息和数据。数据挖掘中常用的算法[1]有:关联规则分析法(解决事件之间的关联问题)、决策树分类法(对数据和信息进行归纳和分类)、遗传算法(基于生物进化论及分子遗传学理论提出的)、神经网络算法(模拟人的神经元功能)等。
  数据挖掘最早使用的方法是关联分析,主要应用于零售业。其中最有名的是售货篮分析,帮助售货商制定销售策略。随着信息时代的到来,数据挖掘在金融[2]、医疗[3]、通信[4]等方面得到了广泛的应用。
  2.关联规则基本原理
  设项的集合I = { I1 ,I2 ,...,Im },数据库事务的集合为D,我们用|D|表示事务数据库所有事务的个数,其中用T表示每个事务,使得T I。我们用TID作为每个事务的唯一标识符。用X表示一个项集,满足X T,那么交易T包含X。根据上述相关描述,给出关联规则的相关定义。
  2.1项集支持度
  用X表示数据库事务D中的项集,项集X的支持度表示项集X在D中事务数所占的比例,用概率P(X)表示,那么
  Support(X)=P(X)=COUNT(X)/|D| (1)
  2.2关联规则置信度
  X Y关联规则的置信度是数据库事务D中包含X Y的事务数与包含X的事务数之比,表示方法如下:
  confidence(X Y)= support(X Y)/support(X) = P(Y|X) (2)
  3.关联规则算法
  3.1经典的Apriori挖掘算法
  大多数关联规则的算法是将关联规则挖掘任务分为两个子任务完成。一是频繁项集的产生,频繁项集的目的是找到大于等于给定的最小支持度阈值的所有项集,这些项集我们称之为频繁项集。二是规则的产生,即从频繁项集中找到置信度比较高的规则,我们称之为强规则。Apriori挖掘算法是众多挖掘关联规则中比较经典的算法,它采用布尔关联规则,是一种宽度优先算法。
  3.2Apriori算法优化
  Apriori算法的思想是每产生一次候选集就需要扫描一次数据库,但是当数据库中的数据庞大,无法直接完全放于內存中,扫描过程中数据需要不断的换入换出,加重了I/O的负担。可见当数据信息大的时候,算法效率低下,同时也消耗的大量的内容。
  3.2.1哈希表技术(散列项集到对应的桶中):
  Park等提出了一种基于散列的产生频繁项集的高效算法DHP算法。即将产生的所有的候选k-项集(k>1)散列到哈希表结构对应的桶中并增加对应的桶计数, 利用哈希表技术可以有效减少候选k-项集(k>1)所占用的空间,进而提高了Apriori算法的效率。
  3.2.2 划分技术(为寻找候选项集划分数据):
  Savasere等提出了一个基于数据划分的算法,即将数据库中的记录划分成几个互不相交的块,各块可以高度并行执行,由最小支持度得到每块中对应的最小支持度。第一次扫描数据库,得到各块的频繁项集,即局部频繁项集。当算法进行数据库的第二次扫描时,需得到每个候选项集的支持数,进而得到全局频繁项集的值。
  3.2.3事务压缩技术(即压缩未来迭代扫描的事务数据):
  该技术用于压缩迭代扫描数据库的大小,即将不包含任何k-项集的事务肯定不包含任何(k+l)-项集,这种事务在以后考虑时,可以加上标记或者删除项集,因为产生j项集(j>k)时不再需要从数据库加上它们进行扫描,如此就可以减小需要扫描的数据库的规模,从而在一定程度上提高算法的效率。
  3.2.4 连续关联规则算法
  C. Hidber提出了一种新型的名为CARMA(连续关联规则的算法挖掘算法)算法,该算法用来在线计算大项集。随着每个项集的支持区间的减少不断产生大项集。他已证明:当相应的支持区间的规模快速减少时,CARMA的项集数迅速接近所有大项集的超集。CARMA的内存效率比Apriori是一个数量级的提高。当支持度阈值比较低时,Apriori和DIC 落后CARMA,此外,CARMA的内存使用效率是两者的六十倍以上。
  3.3基于频繁模式树的算法FP-growth
  由Zaki提出的Eclat算法被认为是产生频繁项集的深度优先方式的原型。在这以后不同深度优先算法被提出,其中由韩家炜等提出的FP-growth算法是最著名和最广泛使用的。韩家炜等人提出了基于频繁模式树(FP-Tree)的算法。该算法首先两次扫描事务数据库,得到频繁项目集的支持度,然后将它们降序排序,并且存储到FP-Tree中。在以后寻找频繁项目集的过程中,不需要再对事务数据库进行遍历,只需要在FP-Tree中寻找新的频繁项目集即可。
  3.4并行算法
  随着高性能多核处理器的出现,学者们开始借助并行系统的强大运算能力,将并行算法引入到研究中。在Bodon工作的基础上,Yanbin Ye等实现了并行Apriori算法,并分析并行计算的性能,分割事务数据库的每个分区执行Apriori算法。
  3.5其它关联规则算法
  Mohammed J. Zaki等提出了CHARM(闭关联规则挖掘),它在优势主要体现在挖掘所有频繁闭项集。Hua-Fu Li等提出了就是通过整个历史数据流挖掘所有频繁项集的DSM-FI(数据流挖掘频繁项集),。Jian Pei等提出了H-mine频繁模式挖掘算法。
  3.6关联规则的评估
  3.6.1基于兴趣度约束的关联规则挖掘算法
  Silberschatz.A等提出了可执行规则的概念,并统一了关联规则挖掘过程中主客观评价标准。Srikant R提出了基于项目约束的关联规则挖掘的概念和相应的算法描述。Balaji Padmanabhan等提出了一种发现未知模式的置信驱动方法,在挖掘过程中考虑到与置信评判的结合,从而使挖掘出的关联规则更加有效。
  3.6.2加权关联规则挖掘算法
  Cai等提出了基于K-支持期望的加权关联规则挖掘算法模型:MINWAL(O)模型和MINWAL(W)模型。张文献等采用权重集归一化的思想对Cai给出的算法做了改进。Wei Wang等[5]提出了一个挖掘加权关联规则的方法,其方法不仅缩短了平均执行时间,但也比已知的方法产生高质量的关联规则。
  4.小结
  数据挖掘是一门新鲜的学科,有着广阔的应用前景,因而吸引了众多的学者对它进行研究,其中关联规则是其中应用最早也是很重要的一个领域。关联规则的挖掘受到越来越多的企业和研究者们的重视,算法模型的建立、算法效率的提高、算法的扩展应用、挖掘潜在有趣的规则等具有重大的理论意义和实用价值。
  参考文献
  [1]方骏,方云,肖杰.数据挖掘的工业标准的现状和展望[J].计算机应用研究,2004,4:8-1。
  [2] 余波,朱东华,刘卓君.加权关联规则挖掘算法在电子商务中的应用[J].计算机工程与应用,2008,44(17):128-129.
  [3] 刘智,伊卫国,鲁明羽,等.向量法关联规则挖掘在冠心病诊断中的应用[J].计算机工程, 2010,36(6):42-44.
  [4] 羡晨静,张维石,刘伟光.关联规则分析在电信交叉销售中的应用研究[J].计算机工程与设计, 2008,29(22).
  [5] 张文献,陆建江.加权布尔关联规则的研究[J].计算机工程, 2003,29(9):55-57.
其他文献
摘 要:随着科学技术水平的不断提升,全球在经济方面已经实现了大跨步发展。这些新型的科技影响着人们的衣食住行,其中在出行方面,人们经历了从步行到飞行的跨越。航空事业是人类在科学技术方面一大进步的标志,但航空业也需要管制与规划。因此,以全球定位系统GPS和航空监控技术为基础的自动相关监视技术的产生,将为空中交通的秩序奠定基础。与之前的技术相比,加入ADS-B之后,航空业在多方面实现了进一步的发展。因此
期刊
摘 要:企业文化是企业发展和创新的关键,是现代企业科学管理方式的集中体现,是新形势下衡量一个企业能否持续健康发展的标准。如何加强企业文化建设,推进文化管理,越来越成为企业管理者非常注重和关心的问题。本文从煤炭企业文化建设存在的问题、建设煤炭企业文化的必要性、建设煤炭企业文化的方向三方面来论述新形势下煤炭企业文化建设。  关键词:煤炭企业文化;企业文化的意义;存在问题;建设方向  企业核心竞争力蕴藏
期刊
期刊
背景:尽管10年来全球范围内胃癌的发病率持续下降,其仍然是引起死亡的主要肿瘤之一。早期诊断率的提高显著增加了手术根治病人的数量,但胃癌复发率高,晚期胃癌患者预后差。近年来
许多学者针对有效监事制度的建立进行过广泛的研究。中国公司法的立法目的是,通过改革开放,在把社会主义计划经济体制转化为社会主义市场经济体制的过程中,实现国有企业向公司制转变。可以说,相对于其他国家的公司的产生背景,中国的情况具有其截然不同的特征。而日本作为我们的邻邦,公司法的立法模式与我国具有一定的相似性,因此,可以通过对日本监事制度变迁及主要内容的研究,在承认两国监事制度存在差异的基础上,从而引出
期刊
摘 要:本文从计算机网络的私密性和可依赖性出发,针对计算机网络信息的潜在风险提出了几点计算机风险的控制方法。  关键词:计算机;网络风险;控制方法  计算机网络系统已经在各行各业中被广泛应用,很多大型公司已经建立了自己的计算机网络系统,这样的网络系统能够极大的方便公司内的管理,提升了公司的工作效率,但是,计算机网络的应用也存在各种各样的问题和潜在的风险,计算机网络难免受到黑客的攻击和出现信息泄露等
期刊
摘 要:本文结合在机器人领域的相关工作,分析我国与机器人强国在机器人产业化方面的差距产生的原因,就工业机器人目前涉及的灵巧操作、自主导航、环境感知、人机交互与安全性等前沿技术的研究做简要的综述。提出我国工业机器人产业发展的若干思考和建议,希望能够在把握国内外工业机器人前沿技术发展动态的同时,为发展我国工业机器人技术与产业提供相关战略思考与建议。  关键词:工业机器人;自主导航;产业化;发展战略  
期刊
摘 要:近年来,我国能源发展对经济的推动作用十分显著,而油气的储运工作也对人们的生活水平带来了极大的影响。因此,在现阶段的高校教育中十分重视油气储运工程专业的教学体系以及教学质量,在油气储运工程专业实验教学包含着教学设计、课程实施等多个环节,其主要目的就是为了能够使油气储运专业的学生掌握扎实的专业基础和职业技能,从而为我国的油气储运工作培养更多优秀的人才。本文主要针对现阶段油气储运工程专业实验教学
期刊
摘 要:近年来,中国人口红利衰退,社会处于超低生育率水平,人口老龄化加重。在这样的背景下,一方面,全面放开二孩政策对于数量型人口红利有一定的刺激作用;另一方面,深度挖掘质量型人口红利,提高人力资本配置,增强人口素质,加快经济创新转型,以人口红利的深入提升促进经济长期协调可持续发展。  关键词:人口红利;人力资本;经济增长;二胎政策  人口和经济的发展过程是相互影响,双向互动的关系,一国的人口数量、
期刊
摘 要:变电所集中调配了各区域电能,变换并分配了电流。作为必要的部分,电力体系内的变电所应能维持稳定的运转,减低耗费的总成本。然而从现状看,变电所运行中仍隐含多样的不稳定要素,威胁着持久安全运转的目标。针对于日常运行,有必要采纳调控性的安全措施;结合变电所表现出来的真实情况选取最合适的强化措施。  关键词:变电所;安全稳定运行;措施探究  某化工厂设有自身的电厂,可分成化工区及分动力区,在化工区域
期刊