数据挖掘技术中基于关联规则算法的研究

来源 :硅谷 | 被引量 : 0次 | 上传用户:cgy1922
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要: 隨着现代信息技术的发展,特别基于网络的信息技术的飞速发展,人们对于数据的处理能力的要求也随之升高,数据挖掘的本质,就是从模糊的、随机的、有噪声的、大量的、不完全的数据当中提取有潜在利用价值的信息的过程。从大型数据库中挖掘关联规则的问题已成为数据挖掘中一个比较热门的研究方向。在先前研究的基础之上,对基于关联规则的数据挖掘技术进行全面地分析。
  关键词: 数据挖掘;关联规则;算法
  中图分类号:TP311 文献标识码:A 文章编号:1671-7597(2011)0710142-01
  1 课题的研究背景
  传统数据收集技术在对大量数据中的分析过程没有一个比较好的方案。传统处理方式不能对这些数据所包含的内在信息进行有效的分析和提取。这些数据的中包含着很多具有决策意义的信息,如何得到这些能够为我们提供决策依据的数据依据成为当前一个热门的研究方向。
  2 数据挖掘技术概述
  数据挖掘不同于传统的数据分析,二者有着本质的区别,数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。通过挖掘所得到的信息应该具有未知、有效和实用等三个特征。整个KDD通常会有若干个挖掘的步骤组成,通常,数据挖掘是其中最重要的一个步骤。
  
  2.1 数据挖掘的任务和方法
  数据挖掘的主要任务是对数据进行分类预测、关联和聚类分析以及偏差分析等。数据挖掘的方法包括:决策树方法、覆盖正例排斥反例方法、统计分析方法、模糊集方法、神经网络方法、遗传算法等。
  2.2 数据挖掘的对象和流程
  可以用于挖掘的对象有关系数据库、文本数据源、多媒体数据库、空间数据库、时态数据库、面向对象数据库、数据仓库、异质数据库等。数据挖掘的流程包括:定义问题、数据准备、数据挖掘、结果分析和知识运用等。
  3 关联规则概述
  关联规则挖掘过程主要包含两个阶段:第一阶段必须先从资料集合中找出所有的高频项目组(Frequent Itemsets),第二阶段再由这些高频项目组中产生关联规则(Association Rules)。
  关联规则挖掘的第一阶段必须从原始资料集合中,找出所有高频项目组(Large Itemsets)。高频的意思是指某一项目组出现的频率相对于所有记录而言,必须达到某一水平。
  3.1 Apriori算法的基本思想
  Apriori算法是一种基于数据挖掘的布尔关联规则频繁项集算法,这种算法具有一定的学术界影响力。这种算法首先需要找出所有的与数据相关联的频集,频集中包含的项集出现的频率需要和事先定义的最小支持度至少保持一样。接下来由频集产生相应的数据的强关联规则,这些数据的强关联规则需要满足最小的可信度和最小的支持度。
  3.2 Apriori算法的不足及改进
  由频繁k-1项集进行自连接生成的候选频繁k项集的数量是非常巨大的。在验证候选频繁k项集的时候需要对整个数据库进行扫描,这个扫描的过程是非常耗费时间的。
  Apriori算法为了减少因自身原有的缺陷,而带来的消极影响,以提高Apriori算法在执行方面的效率,针对Apriori算法本身的缺陷,并在Apriori算法的基础上提出了几个基于Apriori算法改进的算法:
  1)基于散列的优化方法
  基于散列的优化方法的典型算法就是DHP算法。这种算法利用散列表来产生候选集,可以用于压缩侯选k-项集的集合q(k>-2)的大小。基于散列的优化方法算法能够有效地减少了2维和3维的候选项目集的数量,是对Apriori算法的直接改进。
  2)基于事务压缩的优化方法
  AprioriTid和APriorHybrid算法是基于事务压缩的优化方法的典型算法。这种算法的主旨思想是通过减少不必要的事务的个数来达到减少扫描数据库数量的目的。
  4 总结
  基于关联规则的数据挖掘技术的发展应是挖掘工具在先进理论指导下的一种改进,而就目前的情况来看,数据挖掘技术还有很大的发展空间。虽然数据挖掘是一个过程,但是与此过程相关联的是以前数据挖掘之前的结果和数据,那些已获得的数据正是我们想要的,可以不断的分析和产看,因为如果没有进行相应的数据挖掘,是不可能得到有价值的数据。就实际情况来看,只有那些可以依据过去经验形成的合理的解释才是有价值的。
  
  参考文献:
  [1]张凤荔,基于关联规则的数据挖掘算法研究[D].电子科技大学,2010.
  [2]梅俊,数据挖掘中关联规则算法的研究与应用[D].安徽工程大学,2010.
  [3]百度百科,http://baike.baidu.com/view/1076817.htm.
其他文献
对中石油克拉玛依石化有限责任公司20万t/a甲醇装置转化炉下猪尾管破裂失效的原因进行分析,通过外观检查及对化学成分、金相组织检验、断口形貌、表面形态的分析表明:其化学
2007年6月25日,我有幸参加了都匀市小学英语课堂教学研讨课,目睹了徐阳、李静红老师上课的风采,也聆听了马承教授和其他英语教师的精彩点评,让我受益匪浅。马承教授的一番话
顺直省委问题是中共党史上颇有影响的重要事件。从1927年8月到1928年底一年多时间,中央为解决省委内部矛盾和省委与中央之间的意见分歧, The straight provincial issue is
二人结识在中共一大上毛泽东与李达(1890—1966,号鹤鸣,湖南永州人)认识开始于1921年7月召开的中共一大上。一大召开前,邀请信及汇款是由“二李”(上海共产主义小组的李达、
英语是高中阶段的重要学科,教师在教学过程中必须要摆脱传统教学方式,为学生制定更加科学的教学模式。营造良好的学习情境有助于学生学习效率的提升,且对于师生之间的互动交
解题反思是一种对解题思路的“再认识”过程,是对知识解析的更深度的理解,对解题方法更加强化认知的过程。在数学学习的过程中,解题反思对数学问题的理解和认知有非常重要的
国家新标准,即强化木地板(GB/T 18102-2007)已于2008年5月1日起正式实施,取代了2000年版标准.
问:你了解儿童感觉统合吗?什么是儿童感觉统合失调?答:1.感觉统合是指大脑将从身体各种感觉器官传来的感觉信息进行多次的组织分析、综合处理,做出了正确决策,使整个机体和谐
摘要: 设计是连接精神文明与物质文明的桥梁,人类寄希望于通过设计来改造世界,改善环境,提高人类生存的生活质量。随着生活质量和文化素质不断提高,人们对不仅对赖以生存的环境开始重新考虑,而且对于传承人类历史文化的场所——博物馆也提出更高层次的要求。将从博物馆的空间的整体经营和布局、区域划分和空间配置及空间平面规划三方面来探讨现代博物馆的空间和设计理念,为科学合理的建设现代化博物馆提供参考。   关键词
本文通过对荣华二采区10
期刊