论文部分内容阅读
摘 要:数据挖掘是近年来数据库领域研究的热点问题之一。关联规则Apriori算法是数据挖掘的关键技术,主要是找出数据库中的所有频繁项集,然后由频繁项集产生关联规则。SQL Server 2005为数据挖掘的实现提供了强大的支持。采用创建基于WEB服务的数据挖掘模式,能更好的促进科创园区智能化管理和发展。
关键词:数据挖掘;Apriori算法;Web服务
中图分类号:TP311.13
在信息社会中,随着信息系统在科创园区中的应用,系统中包含了大量的创业企业的信息以及对应的服务信息。如何利用数据库数据,发现规律,以便更好的为创业服务,就需要进行数据挖掘。Apriori算法是关联规则的经典算法,但也存在效率不高的缺陷,可以采用改进的算法,进一步提高效率。Microsoft SQL Server 2005引入了大量新的数据挖掘功能,可以利用SQL Server 2005 Data Mining来开发智能应用程序。利用SQL Server 2005 Data Mining可以方便的访问数据挖掘模型和为支持特定的挖掘需求而添加的自定义挖掘算法。本文介绍了数据挖掘和Apriori算法及其改进思路,通过SQL Server 2005 Data Mining智能开发平台,构建基于WEB服务的科创园区信息系统的数据挖掘模式,促进智能化管理,为科创园区的决策提供技术支持。
1 数据挖掘
数据挖掘(Data Mining,DM)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含其中的事先不知道的潜在有价值的信息和知识的过程。在信息系统中利用数据挖掘,可以帮助决策者做出正确的决策,减少决策风险。
经过多年的发展,人们提出了很多实用的数据挖掘算法,其中Apriori算法是一种影响最大的数据挖掘算法,它采用布尔关联规则。在信息化的今天,随着人们对数据挖掘研究的深入,数据挖掘在信息系统应用中越来越受到人们的重视。
2 Apriori算法
2.1 Apriori算法简介
Apriori算法是由Rakesh Agrawal和Rnamakrishnan Srikant在1994年提出的关联规则的经典算法,它是所有关联规则挖掘算法的核心。
Apriori算法使用频繁项集的先验知识,使用一种称作逐层搜索的迭代方法,k项集用于探索(k+1)项集。首先,通过扫描事务记录,找出所有的频繁1项集,该集合记做L1,然后根据L1搜索L2,逐层搜索,直到Lk为空时结束。最后再在所有的频繁集中找出强规则,即产生用户感兴趣的关联规则。
2.2 Apriori算法描述
Apriori算法采用两阶段挖掘的思想,并且基于多次扫描事务数据库来执行的。Apriori算法由两步完成挖掘:第一步,从事务数据库(D)中挖掘出所有频繁项集;第二步,基于上一步挖掘到的频繁项集,挖掘出全部的频繁关联规则。其中第一步往往是总体性能的瓶颈,Apriori算法采用连接步和剪枝步两种方式来找出所有的频繁项集。算法的步骤如下:
(1)确定最小置信度和最小支持度。
(2)扫描数据集的所有事务,统计对每个项出现的次数,删除出现次数小于阈值的项集,得到L1频繁项集。
(3)利用L1的结合,产生候选2项集合C2。
(4)对C2的候选项集的支持计数,生成L2。利用L2的结合产生候选3项集合C3。
(5)重复扫描数据库,利用Lk-1的结合产生候选k项集合Ck,对Ck的候选项集的支持计数,生成Lk。穷尽数据集中的所有频繁项集后结束。
2.3 Apriori算法缺点和改进
Apriori算法能够有效地产生关联规则,但存在两个比较明显的缺点:一是由于在每一步产生候选项目集时循环产生的组合过多,没有排除不应该参与组合的元素,算法可能产生大量的候选项目集。二是需要重复扫描数据库,增加系统的I/O开销,影响效率。
我们可以在由k频繁项集生成k+1频繁项集时,将事务数为k的事务打上标记或删除,这样可以避免在生成k+2频繁项目集时扫描该事务。这样就解决了第一个缺点。对于第二个缺点,可以预先将所有事务存储到一个二维矩阵中,这样只需要扫描一次数据库。以后的计算都在数组上进行运算,直接访问内存,没有I/O操作。根据这个设计思路,可以将Apriori算法进行改进,操作步骤如下:
(1)扫描数据库,将所有事务和项的对应情况存储到一个二维数组中。如果某个(i)项存在于某个(j)事务中,那么二维矩阵的第(i,j)个值就置为“1”,反之则置为“0”。
(2)统计每个项对应的二进制数中1的个数,并将该个数大于或等于支持度阈值的项从加入到L1中,得到频繁1项集L1。
(3)对L1中的项求交,统计交集二进制数1的个数,将该个数大于或等于支持度阈值的项加入到L2中,得到频繁2项集L2。
(4)按照Apriori算法中两个k频繁项集连接的方法对k频繁项集的二进制数求交,得到频繁k+1项集。
(5)不能生成更多项的频繁集时退出,算法结束。
3 科创园区信息系统中数据挖掘
科创园区信息系统可以采用SQL Server 2005,为数据挖掘提供了便利。SQL Server 2005中的数据挖掘功能是基于其提供的功能强大而操作简单的API。利用该API,用户可以很容易创建智能应用程序。即使开发人员不了解模型工作原理,也可以根据分析的数据调用引擎选择最佳模型。开发人员可以使用Data Mining Extensions to SQL或DMX(和SQL相似的语言)来操作数据挖掘结果。但是,数据挖掘操作对于没有专业知识的普通用户来说还是比较繁琐。所有可以采用由系统建立数据挖掘WEB服务的模式。采用WEB服务的数据挖掘模式,扩大了数据挖掘的使用范围,使得用户不用关注数据挖掘的操作,而将注意力集中到知识的获取方面。
科创园区信息系统中数据挖掘可以按照以下步骤完成:
(1)将企业和园区的数据进行处理,包括数据的选择(选择相关的数据)、净化(消除噪音、数据)、推测(推算缺失数据)、转换(离散值数据与连续值数据之间的相互转换,数据值的分组分类,数据项之间的计算组合等)、数据缩减(减少数据量)。生成数据仓库时。
(2)实现改进Apriori算法,并将算法添加到SQL Server 2005中,进行数据挖掘。
(3)创建数据挖掘WEB服务,提供给授权用户使用。
(4)分析数据,得到可能型号层知识的模式模型,分析模型,得到知识,支持决策。
4 结束语
在信息社会中,数据挖掘在科创园区中的决策支持系统用有着重要的地位。如何利用关联规则中的经典Apriori算法,利用SQL Server 2005为基础,开发基于WEB服务的数据挖掘应用,使得数据挖掘更加简便合理。为智能化管理提供技术支持。
参考文献:
[1]林郎碟,王灿辉.Apriori算法在图书推荐服务中的应用与研究[J].计算机技术与发展,2011,21(5):22-24.
[2]戴小廷.典型Apriori改进算法的分析与比较[J].微型计算机信息,2010,26(3):159-161.
[3]黄鹤.关联规则算法综述[J].软件导刊,2009,8(3):56-58.
[4]康敏旸,张安.改进的Apriori数据挖掘算法的应用[J].火力与指挥控制,2009,4(10):111-114.
[5]HanJiawei,KamberM.数据挖掘:概念与技术[M].北京:机械工业出版社,2008.
[6]陈则芝,李冬梅.数据挖掘关联规则Apriori算法的优化[J].山西大同大学学报(自然科学版),2008,24(4):35-37.
[7]赵春玲,宁红云.Apriori算法的改进及其在物流信息挖掘中的应用[J].天津理工大学学报,2007,23(1):30-33.
作者简介:汪承焱(1974-),男,安徽太湖人,讲师,研究方向:计算机应用、网络。
关键词:数据挖掘;Apriori算法;Web服务
中图分类号:TP311.13
在信息社会中,随着信息系统在科创园区中的应用,系统中包含了大量的创业企业的信息以及对应的服务信息。如何利用数据库数据,发现规律,以便更好的为创业服务,就需要进行数据挖掘。Apriori算法是关联规则的经典算法,但也存在效率不高的缺陷,可以采用改进的算法,进一步提高效率。Microsoft SQL Server 2005引入了大量新的数据挖掘功能,可以利用SQL Server 2005 Data Mining来开发智能应用程序。利用SQL Server 2005 Data Mining可以方便的访问数据挖掘模型和为支持特定的挖掘需求而添加的自定义挖掘算法。本文介绍了数据挖掘和Apriori算法及其改进思路,通过SQL Server 2005 Data Mining智能开发平台,构建基于WEB服务的科创园区信息系统的数据挖掘模式,促进智能化管理,为科创园区的决策提供技术支持。
1 数据挖掘
数据挖掘(Data Mining,DM)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含其中的事先不知道的潜在有价值的信息和知识的过程。在信息系统中利用数据挖掘,可以帮助决策者做出正确的决策,减少决策风险。
经过多年的发展,人们提出了很多实用的数据挖掘算法,其中Apriori算法是一种影响最大的数据挖掘算法,它采用布尔关联规则。在信息化的今天,随着人们对数据挖掘研究的深入,数据挖掘在信息系统应用中越来越受到人们的重视。
2 Apriori算法
2.1 Apriori算法简介
Apriori算法是由Rakesh Agrawal和Rnamakrishnan Srikant在1994年提出的关联规则的经典算法,它是所有关联规则挖掘算法的核心。
Apriori算法使用频繁项集的先验知识,使用一种称作逐层搜索的迭代方法,k项集用于探索(k+1)项集。首先,通过扫描事务记录,找出所有的频繁1项集,该集合记做L1,然后根据L1搜索L2,逐层搜索,直到Lk为空时结束。最后再在所有的频繁集中找出强规则,即产生用户感兴趣的关联规则。
2.2 Apriori算法描述
Apriori算法采用两阶段挖掘的思想,并且基于多次扫描事务数据库来执行的。Apriori算法由两步完成挖掘:第一步,从事务数据库(D)中挖掘出所有频繁项集;第二步,基于上一步挖掘到的频繁项集,挖掘出全部的频繁关联规则。其中第一步往往是总体性能的瓶颈,Apriori算法采用连接步和剪枝步两种方式来找出所有的频繁项集。算法的步骤如下:
(1)确定最小置信度和最小支持度。
(2)扫描数据集的所有事务,统计对每个项出现的次数,删除出现次数小于阈值的项集,得到L1频繁项集。
(3)利用L1的结合,产生候选2项集合C2。
(4)对C2的候选项集的支持计数,生成L2。利用L2的结合产生候选3项集合C3。
(5)重复扫描数据库,利用Lk-1的结合产生候选k项集合Ck,对Ck的候选项集的支持计数,生成Lk。穷尽数据集中的所有频繁项集后结束。
2.3 Apriori算法缺点和改进
Apriori算法能够有效地产生关联规则,但存在两个比较明显的缺点:一是由于在每一步产生候选项目集时循环产生的组合过多,没有排除不应该参与组合的元素,算法可能产生大量的候选项目集。二是需要重复扫描数据库,增加系统的I/O开销,影响效率。
我们可以在由k频繁项集生成k+1频繁项集时,将事务数为k的事务打上标记或删除,这样可以避免在生成k+2频繁项目集时扫描该事务。这样就解决了第一个缺点。对于第二个缺点,可以预先将所有事务存储到一个二维矩阵中,这样只需要扫描一次数据库。以后的计算都在数组上进行运算,直接访问内存,没有I/O操作。根据这个设计思路,可以将Apriori算法进行改进,操作步骤如下:
(1)扫描数据库,将所有事务和项的对应情况存储到一个二维数组中。如果某个(i)项存在于某个(j)事务中,那么二维矩阵的第(i,j)个值就置为“1”,反之则置为“0”。
(2)统计每个项对应的二进制数中1的个数,并将该个数大于或等于支持度阈值的项从加入到L1中,得到频繁1项集L1。
(3)对L1中的项求交,统计交集二进制数1的个数,将该个数大于或等于支持度阈值的项加入到L2中,得到频繁2项集L2。
(4)按照Apriori算法中两个k频繁项集连接的方法对k频繁项集的二进制数求交,得到频繁k+1项集。
(5)不能生成更多项的频繁集时退出,算法结束。
3 科创园区信息系统中数据挖掘
科创园区信息系统可以采用SQL Server 2005,为数据挖掘提供了便利。SQL Server 2005中的数据挖掘功能是基于其提供的功能强大而操作简单的API。利用该API,用户可以很容易创建智能应用程序。即使开发人员不了解模型工作原理,也可以根据分析的数据调用引擎选择最佳模型。开发人员可以使用Data Mining Extensions to SQL或DMX(和SQL相似的语言)来操作数据挖掘结果。但是,数据挖掘操作对于没有专业知识的普通用户来说还是比较繁琐。所有可以采用由系统建立数据挖掘WEB服务的模式。采用WEB服务的数据挖掘模式,扩大了数据挖掘的使用范围,使得用户不用关注数据挖掘的操作,而将注意力集中到知识的获取方面。
科创园区信息系统中数据挖掘可以按照以下步骤完成:
(1)将企业和园区的数据进行处理,包括数据的选择(选择相关的数据)、净化(消除噪音、数据)、推测(推算缺失数据)、转换(离散值数据与连续值数据之间的相互转换,数据值的分组分类,数据项之间的计算组合等)、数据缩减(减少数据量)。生成数据仓库时。
(2)实现改进Apriori算法,并将算法添加到SQL Server 2005中,进行数据挖掘。
(3)创建数据挖掘WEB服务,提供给授权用户使用。
(4)分析数据,得到可能型号层知识的模式模型,分析模型,得到知识,支持决策。
4 结束语
在信息社会中,数据挖掘在科创园区中的决策支持系统用有着重要的地位。如何利用关联规则中的经典Apriori算法,利用SQL Server 2005为基础,开发基于WEB服务的数据挖掘应用,使得数据挖掘更加简便合理。为智能化管理提供技术支持。
参考文献:
[1]林郎碟,王灿辉.Apriori算法在图书推荐服务中的应用与研究[J].计算机技术与发展,2011,21(5):22-24.
[2]戴小廷.典型Apriori改进算法的分析与比较[J].微型计算机信息,2010,26(3):159-161.
[3]黄鹤.关联规则算法综述[J].软件导刊,2009,8(3):56-58.
[4]康敏旸,张安.改进的Apriori数据挖掘算法的应用[J].火力与指挥控制,2009,4(10):111-114.
[5]HanJiawei,KamberM.数据挖掘:概念与技术[M].北京:机械工业出版社,2008.
[6]陈则芝,李冬梅.数据挖掘关联规则Apriori算法的优化[J].山西大同大学学报(自然科学版),2008,24(4):35-37.
[7]赵春玲,宁红云.Apriori算法的改进及其在物流信息挖掘中的应用[J].天津理工大学学报,2007,23(1):30-33.
作者简介:汪承焱(1974-),男,安徽太湖人,讲师,研究方向:计算机应用、网络。