分析数据挖掘中关联规则的提升及其应用

来源 :商 | 被引量 : 0次 | 上传用户:zenghui_yan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:在现代信息技术的发展背景下,数据挖掘成为数据库中的重要知识发现,逐渐成为一个跨学科程度较深的研究领域。而对关联规则的分析是数据库挖掘中的重要课题。关联规则在有效的提升后,通过在各领域的发展中应用,为其发展提供可靠的技术保证。本文简单阐述关联规则的概念,探讨其相应分析的求解,检验其相应分析的适应性,了解相应分析适应性的具体应用。
  关键词:数据挖掘;关联规则;提升;应用
  在数据信息快速发展的背景下,在庞大的数据库中挖掘有效的信息变得越来越困难,一般的数据挖掘技术很难在同时保证精确地、及时性、广泛性,优化具体的数据挖掘技术逐渐成为数据挖掘工作中的一个难题。利用有效的数据挖掘工具以及相应的算法进行有效的数据挖掘工作成为目前行业的重点话题。数据挖掘是从大量的数据中,筛选出隐藏性较高,可信度较高,具有鲜明的特点的有效信息,是数据的一种高级处理的过程[1]。而数据挖掘中的关联规则是一种主要的挖掘技术,能够指导整个数据挖掘工作的进行,优化相应的数据挖掘工作,更好的适应于各个行业的数据挖掘需求。
  1.关联规则的概念
  关联规则是一种X→Y的一种蕴涵式,X和Y是关联规则的先导,关联规则的XY存在一定的支持度与信任度。
  早在1993年,Agrawal等人提出了关联规则的概念。关联规则被认为是,假设I={I1,I2,…,Im}是项的集合,那么,给定一个用于交易的数据库D,其中每一个交易都会与一个唯一的符号对应。关联规则在数据库中的支持度应该是数据库中的事务,同时包含的X、Y的概率,而信任度则是数据库中的条件概率。一般情况下,如果能满足具有最小的支持度和信任度,就可以认为关联规则是成立的。而最小的支持度和信任度是人为而定的。关联规则,其核心的方法是频集理论的递推方法[2],它可以及时发现具体的交易中,数据库中不同的商品之间存在的联系,然后在后续的工作中,通过一定的规则找出客户购买行为模式。目前,利用关联规则挖掘数据的方法已经广泛应用在商业、电信等各个领域中,因此,对关联规则的研究显得尤为重要。
  利用这样的简单例子来说明关联规则的概念,上述的表格是顾客在超市购买记录的具体数据库情况,包含了6个事务,项集为I={乒乓球拍、乒乓球、运动鞋、网球}。分析关联规则:乒乓球拍与乒乓球,事务1、2、3、4、6包含乒乓球拍,事务1、2、6同时包含乒乓球拍和乒乓球,X^Y=3, D=6,支持度(X^Y)/D=0.5;X=5, 置信度(X^Y)/X=0.6。若给定最小支持度A= 0.5,最小信任度B= 0.6,认为购买乒乓球拍和购买乒乓球之间存在关联。
  2.相应分析的求解
  在数据挖掘中,关联规则挖掘的对象一般是事务数据库。在具体的事务数据库中可以考察设计到众多属性的事务,在上述的关联规则概念的分析中,乒乓球拍与乒乓球等都是具有属性的事务[3]。通过具体的数据库分析,进行关联规则的统计描述,可以解决实际发展领域中的问题,使不同的行业通过关联规则在数据库中筛选有用的信息,促进其行业的发展。
  在关联规则中,进行相应性的分析,简单来说就是分析两组或者多组变量之间关系的有效方法。一般的离散情况下,对相应性的分析要从资料出发,建立因素之间的列联表,这样的列联表可以是二维的也可以是三维的,然后对数据进行分析。这种分析方法在几维子空间上的建立如果是最优化的状态,则表示这种相应性的分析是完善合适的。
  对相应性分析进行求解,明确各个要素之间的权重作用,分析权重矩阵,得到相应的数据处理方法。
  具体的求解方法参考胡定国和张润楚在1990年提出的具体理论[4]。
  (1)卡方距离意义下的总的信息变差
  要在计算的过程中,针对不同的因素的轮廓矩阵引入卡方距离:
  d2(i,i′)=∑cj=11f-jfijfi.-fi′jfi′.和
  d2(j,j′)=∑ri=11fi.fijf.j-fij′f.j′2.
  按照一定的配合优度的准则,求卡方意义下的总信息变差,
  tr(s)=tr(Q)=tr(S*)=tr(Q*),
  其中,
  S=F′D-1rFD-1c,Q=FD-1cF′D-1r,
  S*=D-12cF′D-1rFD-12c,Q*=D-12rF′D-1cFD-12r.
  在变差信息损失达到最小的意义下,求解因素间关系的最优的联立表示,这样的求解要在低维空间中进行。
  (2)最优的联立表示
  求解特征值和特征向量,注意相同的非零特征值,通过设立不同的关系式将进行分析,得到空间中分析的对偶关系:
  βαα=D-1cF′φα,βαφα=D-1cF′α, α=1,2,…,l0,
  或
  α=β-11αD-1cF′φα,φα=β-12αD-1rFα, α=1,2,…,l0.
  这样就被称为相应分析的联立表示,当a值取1或2……时可以称为最优联立表示。
  (3)进一步求解分析
  在具体的相应性分析中,会给定常数,然后得到在维子空间的最优联立表示,最后在联立表示的基础上分析各个因素之间的关系。
  3.相应分析的适应性检验
  3.1适应性检验的主要思想
  对相应分析的适应性检验首先要明确其检验的主要思想,在思想的指导下做进一步的检验。一般的检验要根据数理统计理论来进行,检验两个变量的独立性[5]。
  用以下公式进行计算:
  W0=k∑ri=1∑cj=1f2ijfi.f.j-1,
  两个变量的独立性,与取样的大小以及小于1的特征值的和的大小有密切的关系,在给定水平a的情况下,如果在a水平下两组的因素是独立的,就不需要做相应的分析,也就是这样的相应分析没有任何意义。所有的列联表数据是反应随机误差的,不能有效的包含两组因素之间的关联。如果在分析的过程中不进行假设,就可以用相应分析来讨论两组因素之间的关联关系。
其他文献
1967年,所谓的“二月逆流”发生后,陈毅很快被夺权,接受革命群众的“批判、帮助”。批陈大会改小会外交部少数造反派头头,策划召开外交部甚至更大规模的外事部门“批陈大会”
“三严三实”与“五个坚持”各有侧重,但思想是一脉相承、一以贯之的,要求是内在统一、紧密相连的。“三严三实”体现了从严从实治党的决心,体现了从严从实狠抓作风建设的坚
包括脸书、微软、谷歌等全球首届一指的科技公司高层代表以及科学家、学术界人士日前聚集日内瓦,在首届瑞士全球数字峰会上集体研究讨论与人工智能(AI)有关的全球道德标准问
期刊
2009年增值税转型在我国全面推行.增值税转型是否增加了企业的固定资产投资、是否促进了转型地区的经济发展以及是否达到预期目的,这些都是需要研究的问题.本文在收集企业资
期刊
一、"以德治国"思想具有成熟而丰富的内涵1.关于以德治国的实质含义(1)有观点认为以德治国是继承优良传统道德与弘扬时代精神相结合的、与社会主义法制建设、市场经济发展相
期刊
近年来,车内刺激性异味问题频频引起社会关注.车质网发布的《车内空气质量问题分析报告》最新数据显示,2010年至2019年8月,消费者对车内异味投诉已达9300次.仅今年1月至8月,
期刊
期刊
党的十八大以来,南平市委、市政府团结带领全市广大干部群众,凝心聚力、拼搏实干,以加快转变、跨越发展为主线,围绕“先行先试、加快转变、民生优先、党建科学”的要求,认真
期刊