关于扩展关联规则的若干问题的研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:ericc0123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘,又称数据库中的知识发现,作为一门新兴的研究领域,主要目的是从数据集合中发现隐含的、事先未知的、对决策有潜在价值的用户感兴趣的知识,数据挖掘是当前数据库领域中最受瞩目的研究方向之一。在数据挖掘研究中,关联规则挖掘作为数据挖掘研究中的一个重要部分,引起了越来越多的关注。关联规则最初来源于对超市数据的分析,用来发现超级市场中用户购买的商品之间的隐含关系,以便为商场的决策提供依据。关联规则通常具有如下形式:AB,其中A和B都是条件的合取范式。关联规则挖掘就是发现满足用户定义的最小支持度和最小可信度的关联规则。本文从数据挖掘和关联规则的基本概念出发,介绍了各种经典的关联规则算法。比如,关联规则的挖掘工作可以分成两个步骤,第一个步骤是发现所有满足用户给定的最小支持度的频繁项目集(如果某一项目集合X在数据库中出现的次数超过了用户定义的最小值支持度,则X就是频繁项目集);第二个步骤是从频繁项目集生成所有满足用户给定的最小可信度的关联规则。由于第一个子问题由于产生的数据量巨大,面临更大的计算复杂性问题,具有很大的挑战性,其中算法的关键是效率问题,大多数关联规则算法主要是集中在如何高效的寻找频繁项目集。在文中,我们详细介绍了一个经典的Apriori算法,并对其他算法作了概要性回顾;同时针对第二步骤,我们也介绍了一些常用的算法。然而由于目前大多数关联规则算法只是停留在挖掘布尔类型的关联规则,而在有些情况下,整个决策系统,经典的关联规则并不能达到的用户的要求。因此,我们提出了扩展经典关联规则的算法,在特定的情况下,显得更加有意义。这也是写这篇论文的主要目的之一,在本文的后半部分,我们提出了一些扩展的关联规则算法。如在第三部分提出的加权关联规则算法,主要是基于每一个Transaction对整个系统的贡献大小不一样。这样就克服了传统关联规则在某些特定的领域中的问题。在本文的第四章,也是这篇论文的重点部分,由于传统算法只是针对二元数据矩阵进行操作,抛弃了可能对整个决策系统起着非常作用的数量化信息。而在实际过程中,这些数量化信息往往对整个决策系统起着非常重要的<WP=47>作用,因此如何能够充分利用这些信息成为当前关联规则领域的一个难点。针对这种情况,提出了一种新的扩展的关联规则-比例规则,主要思想是通过PCA,SVD等方法求出主向量,再通过自己定义了比例项目集等挖掘可以度量比例规则。其形式如下: Bread:Milk:Butter=1:2:5 上面这规则说明这样一个意思:如果一个顾客花1块钱买面包,那么他有可能会花2块钱买牛奶和花5块钱买黄油。同时我们又通过实验证明了该算法对于挖掘传统的关联规则同样有效。另外,该算法除了挖掘量化的关联规则以外,在其他方面同样具有重要的意义,比如,由于在实际过程中,经常会遇见一些数据不完整的情况,在这种情况下,传统的关联规则算法显得力不从心。在我们提出的算法却很好地解决了这种普遍的缺失值问题,在尽量减少误差的条件下,该算法巧妙的利用各种已知的信息来获取缺失值,并保证重新构造的值尽量的接近隐含的真实值。与此同时,该算法还具有捕获一些非正常数据:包括误操作,或者影响整个决策系统的其他重要数据,如信用卡欺诈行为。而传统关联规则在这些方面显得束手无策。在文中最后一部分,我们简单介绍了关于数据挖掘知识库求精平台。该平台作为国家863项目“智能化农业信息系统开发平台中”重要的一部分,集成了常用的数据挖掘算法,如粗糙集,决策树,关联规则等。同时用户可以通过良好的界面方式进行简单操作就可以完成这种数据处理。该平台在可移植性,可扩充性方面达到了较好的效果。由于关联规则作为一个崭新的领域,很多方面有待于更进一步去研究,挖掘。比如如何挖掘基于增量式的关联规则,挖掘不确定关联规则,挖掘有序关联规则的问题摆在我们的眼前,这也是本人在今后研究的重点。
其他文献
对等网技术是 Internet上的一种分布式网络控制技术,它将逐渐取代传统的C/S模式,使Internet的应用从中心服务器模式向网络节点边缘化方向发展。  当前P2P应用系统的特点在
本文以高校艺术类考生面试为例,介绍了面试的流程和其中存在的问题,提出了建立网络评分管理系统的必要性和系统建设的目标、系统的主要功能及系统采用的关键技术。 针对本系
随着软件产业的不断发展,软件应用的日益广泛,软件开发面临着越来越多的挑战,软件危机也随而生。软件复用在这种背景下发展起来,它是解决软件危机的有效途径。作为软件复用核心技
由于在满足企业级系统安全需求方面显示了极大的优势,基于角色的访问控制(RBAC)近年来成为访问控制领域的研究热点。研究人员已经提出若干基于角色的访问控制模型,其中包括著名
本文主要讨论了数据挖掘的一些基本概念、模式、算法及其在税务系统中的应用,并围绕数据挖掘讨论了解决目前在税务系统中存在的问题的一个解决方案。 首先,本文说明了什么是
多元变参数振动钻削是一种为适应新型材料的出现而进行的优化切削过程,在切削过程中为提高孔加工质量而提出的最优化加工方法。该方法在钻削过程的不同区段,要求采用该区段的最
本文所研究的数字签名就是一种常用的信息安全技术,而其中的多重数字签名正受到人们越来越多的关注.可是,已有的椭圆曲线多重数字签名方案只适合进行广播多重签名,不适合进行
本文针对支持向量机目前存在的若干关键问题展开深入的研究,涉及支持向量机的训练、分类、模型选择和多分类器构造等方面,并将研究成果应用于人脸识别问题中。取得的创新性成果
本论文的目的是利用GIS技术和相关的无线电波传播预测模型来研究无线电波的传播现象。预测的结果以直观的方式输出,这将有助于专业人员建立和优化移动通信系统。  本论文对
数据中心运行着多种类型的应用,例如社交网络、大数据分析、企业应用。这些应用对存储系统的要求(持久性、一致性和性能等)各有不同。随着存储技术的发展,存储层次结构的深度不断