浅析数据挖掘技术与关联规则挖掘算法

来源 :无线互联科技 | 被引量 : 0次 | 上传用户：gaofei23

【摘要】

：

【作者】

：

刘兴明

【出处】

：

无线互联科技

【发表日期】

：

2014年8期

【关键词】

：

数据挖掘关联规则典型关联 APRIORI算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　摘要：随着人们对信息数据量的急速增长从而数据挖掘技术也随之应运而生，这使得人们对知识与信息的渴求得到了进一步满足。对于如何才能快速高效的获取知识，对于信息处理技术来说已经成为当前热门的研究课题。审视当前对于关联规则的研究现状，针对关联研究的现状，分析实际问题对于关联规则总结出一种新的研究方式，结论为关联规则算法在今后的出路和进一步的研究上指明了方向。研究过程中通过对文献的查询分析和比较分析两种方法，进一步阐述对典型关联产生影响的各种方法，其中最为重要的是把核心Apriori算法作为一个研究的基点。
　　关键词：数据挖掘；关联规则；典型关联；Apriori算法
　　1 数据挖掘技术
　　1.1 数据挖掘概念
　　从数据挖掘的本质上说它是一种具有更高商业价值的新型信息处理技术，数据挖掘技术的作用是对数据的应用来说的，其目的是使人们从低层次的联机查询过渡到对数据决策支持分析预测上，从而成为更高层次的应用。
　　1.2 数据挖掘技术的分类
　　关于数据挖掘针对其挖掘的对象，大致的可以做出以下分类，具体分为时态数据库、异质数据库、文本数据源、关系数据库面向对象数据库（Object-Oriented Database）、空间数据库、遗产数据库、多媒体数据库以及web等比较具有针对性的挖掘对象。针对数据挖掘的方法大致的可以归纳为：计算机学习法、数理统计法、信息聚类分析法、遗传算法Genetic Algorithm、神经网络Neural Network探索性分析法、不确定性推理和近似推理法、数据分析法、证据理论和元模式法、数据集成方法、当代数学分析法等。
　　根据数据挖掘技术的知识类型可以分为：广义范围的知识挖掘、差异范围的知识挖掘、关联范围的知识挖掘、预测范围的知识挖掘等。
　　1.3 数据挖掘的应用分析
　　根据麻省理工学院内部数据整理其科技评论杂志对数据挖掘技术的应用分析提出了10大新兴的科学技术数据挖掘能够在未来5年对人类的产生生活带来重大影响。根据种种数据分析所表明的问题我们不难发现数据挖掘技术面向实际应用方面不是一时的，随着时代的发展社会信息化进程不断加剧各行业的业务操作也随之逐渐向现代化流程转变，这一转变促使企业在处理业务时产生大量的业务信息数据。对于一般地企业内部的业务信息数据来说，其主要是由企业进行商业运作而产生的数据，这些数据的量一般比较少。这是都是企业为了获得市场分析而进行收集的，关于此类的数据挖掘的应用终将成为企业进行高层次数据分析，为行政决策提供技术支持的骨干技术。
　　2 关联规则挖掘理论的研究
　　2.1 发现频繁项目集
　　该技术可以通过用户给定的minsupport寻找所有与用户给定的频繁项目集Frequent Itemset即满足support不小于minsupport的项目集。但是从实际出发不难看出，诸如此类的频繁项目集从某种意义上来讲具有互相包含的关系，因而我们一般只关心那些不被数据挖掘所包含的所谓频繁大项集Frequent Large Itemset的集合，对于这些频繁大项集来说它们只是促使关联规则形成的基础。
　　2.2 生成关联规则
　　通过用户给定的（minconfidence）在每个最大频繁项目，项目集中寻找confidence不小于minconfidence的关联规则。近年来关联规则挖掘算法研究的重点，比较流行的方法是基于Agrawal等人建立的项目集格空间理论。这个理论的核心是这样的原理，频繁项目集的子集是频繁项目集，非频繁项目集的超集是非频繁项目集。对于子问题2而言，也许在每个频繁大项集中逐一匹配规则并进行。Confidence I1→I2≥ minconfidence的测试是必需的，因此这部分工作相对比较成熟。为了完善了一个称为Apriori的关联规则挖掘法这个算法一直作为经典的关联规则挖掘算法被引用，随着数据库容量的增大重复访问数据库，外存将导致性能低下，因此探索新的理论和算法来减少数据库的扫描次数和侯选集空间占用已经成为近年来关联规则挖掘研究的热点之一。
　　3 时态约束关联规则挖掘问题及算法
　　3.1 聚焦挖掘任务，提高挖掘效率
　　数据挖掘理论最初的研究侧重点是模型的建立以及算法的设计。随着应用于不同的场合，得出的结果证明单纯而又孤立的挖掘工具效果并不理想。传统的数据挖掘项目中，会进行详尽而反复的调研分析，并根据用户的需求制定细致的任务计划，最终的结果却并不理想，不能得到想要的结果。在算法中，如果想要得到用户的挖掘目标，除了算法之外，还需要有特定的实现机制，使得我们的挖掘计划能够转变成对一个系统工作的控制，这样才能使得挖掘项目能有期望的结果。这样的约束，不需要局限于某一个挖掘数据的阶段，在任何阶段都可以实现。而这样的算法机制，也是交互式数据挖掘算法的基本形式，通过这样的过程，来达到更好以及快速地完成挖掘任务。
　　3.2 保证挖掘的精确性
　　从数据挖掘的算法也可以看出，结果具有不可预测性，而正因此，对于算法运行的过程中，遇到的问题也是难以把握的，所以算法还需要加上反馈机制，通过这样的反馈，来进行验证结果并修正算法中的数据，如果这个过程中，挖掘到的数据是正确的，但也未必是用户所侧重的，所以数据挖掘的结果不仅要具有逻辑上的正确性，还要能够满足用户的主管偏好；也就是既要准确，还要可信且符合用户需求。而约束就是这样实现的，通过约束发现算法中的问题并及时校正算法，以最终能够满足各项需求。
　　4 数据分割下的挖掘问题及算法
　　对于理论基础比较成熟的算法——Apriori算法，研究的侧重点已经变为效率问题，人们也提出了各种的改进算法，本文选区几种比较有代表性的加以介绍。
　　4.1 减少事务的个数　　这样的原理在于，当需要处理的事务不包含长度为k的大项集，那么也一定不包含长度为k+1的大项集。在算法处理的过程中，就可以将这样的事务滤去，在下轮扫描过程中，就可以不需要那么多的事务集。
　　4.2 基于划分的方法
　　这类算法的比较典型的是频繁项目生成算法，该算法原理在于：把数据库分解成逻辑上互不交叉的部分，而每次只需要单独考虑一个分块，在这样的分块中，研究怎样能够发掘频繁项目集；而对于怎样将数据进入存储中，可以把需要处理的分块放入计算机内存中，这样有利于算法的并行处理，数据量相对于不分块前减少，提高了数据挖掘的速度。
　　4.3 基于hash的方法
　　在上述的发现频繁项目集的算法中，有人提出了改进算法，基于杂（hash）技术产生频繁项目集。而这也是他们在实验基础上提出的，因为实验中，他们发现频繁项目集的产生过程中，计算量主要集中在2-频繁项目集上，他们通过杂凑技术来对这个问题加以解决，把需要扫描的项目分发于不同的Hash桶，而对于每对项目来说，最多只可能在一个特定的桶内，然后通过实验分析，可以有效地降低了候选集的产生。当然同样适用于k-频繁项目集生成上。
　　4.4 基于采样的方法
　　基于抽样技术的产生频繁项目集的算法的原理在于：通过对数据库进行抽样，产生一些可能成立的规则，然后通过数据库的未被抽样数据，进行检验，这些关联规则是否是否有效。其实这个算法本身相对比较容易实现，并且能够极大地减少数据挖掘过程中所付出的I/O代价，而不利的地方在于，抽样数据的随机性以及由此带来的结果的偏差比较大。抽样原理是统计学常用方法，虽然其得到的结果精确性可能并不尽人意；如果能被运用恰当的话，可以在精度符合要求的情况下使得挖掘效率大大地提高。
　　[参考文献]
　　[1]毛国君.数据挖掘技术与关联规则挖掘算法研究[D].北京工业大学，2003.
　　[2]刘君强.海量数据挖掘技术研究[D].浙江大学，2003.
　　[3]郭秀娟.基于关联规则数据挖掘算法的研究[D].吉林大学，2004.
　　[4]王琼.基于树的关联规则挖掘算法研究[D].河南大学，2013.
　　[5]王枭翔.基于相关兴趣度的关联规则挖掘[D].兰州交通大学，2013.
　　[6]马盈.基于MapReduce构造多维数据及关联规则挖掘算法的研究与应用[D].东北师范大学，2013.

其他文献

盘活信贷资产存量提高信贷支持效率

期刊

湖州市信贷资产盘活存量资产对策信贷管理

读为先，理解为读服务

期刊

语文教学教学方法教学内容中学教学研究

浅谈新就业形势下的Java语言课程教学改革

摘要：分析当前的就业形势，针对Java课程教学工作中遇到的问题，结合学生的现实情况，对Java课程教学内容以及考核方式提出了一些改革方法，旨在为提高Java语言课程的教学效果提供参考。　　关键词：新就业形势；Java语言；课堂；教学改革　　1 前言　　Java语言课程是计算机科学与技术专业必修的一门专业课，我们的教学目标是培养学生的软件开发能力，教学思路是由浅入深、理论与实践相结合，激发学生的学

期刊

新就业形势JAVA语言课堂教学改革

Touchdown PCR扩增多样性小鼠Fab抗体基因

为了扩增多样性Fab抗体基因产物,保证噬菌体抗体库的足够库容。分离C57BL/6鼠的脾脏,并制备脾细胞悬液,提取其总RNA,逆转录为cDNA,利用普通PCR和Touch down（TD）PCR扩增鼠Fab基

期刊

小鼠噬菌体展示技术抗体库mouse phage display technology antibody library

浅析金批《水浒传》的叙事学理论

在中国叙事学的批评史上,金圣叹应该说是一个标志性的人物,在他的理论当中,存在着许多叙事学的思想,如对叙事视角的把握,对叙事的基本模式和叙事结构的研究等,使中国叙事学的

期刊

叙事学叙事视角叙事模式整体结构

当前浙江省固定资产投资清况调查

期刊

浙江固定资产投资

浙江省婚前保健工作现状与分析

<中华人民共和国母婴保健法>实施已近7年,为了解浙江省婚前保健技术服务内容的执行情况,浙江省卫生厅于2001年9月对全省从事婚前医学检查的医疗保健机构及人员进行了基本情况

期刊

浙江婚前保健工作现状分析医疗保健机构

略论我国投资基金模式的政策选择

略论我国投资基金模式的政策选择张家伦投资基金是通过发行基金证券募集资金，由专业机构管理，投资于某个地区或市场的一种集合投资组合形式。近年来，投资基金在我国迅速兴起，已引

期刊

投资基金模式投资基金中国金融政策

基于搜索引擎技术的飞机维修信息管理

飞机维修信息管理的相关技术随着现代科技的发展而产生重大变革。保持飞机飞行安全是一切技术执行的前提条件,在这一目标的导向下,制定出合理的维修方案,采取较为经济、高效

期刊

搜索引擎技术飞机维修信息管理

高职计算机课堂教学模式及方法探讨

摘要：在计算机飞速发展的今天，计算机已应用到每个领域，职业教育和教学模式已经很了很大的一个改变，随着经济的高速发展，计算机已经应用到高职教育中，而对计算机的一些基本操作已经是对每个人的基本要求。而目前在高职教育中，计算机的教学模式主要采用课堂学习的模式，这种模式还存在着一定的问题，此文所讲解的就是对计算机课堂教学模式方法的探讨，分析课堂中存在的问题及探讨，希望给广大高职院校带来可用之处。　　关键

期刊

计算机课堂模式方法探讨

浅析数据挖掘技术与关联规则挖掘算法

与本文相关的学术论文