基于矩阵的关联规则挖掘算法研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:wensiuu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是致力于数据分析和理解,揭示数据内部蕴涵知识的技术,成为未来信息技术应用的重要目标之一。关联规则是数据挖掘的一个重要研究分支,主要用于描述数据库中数据项之间的潜在联系,有着极其重要的应用价值。自Rakesh Agrawal等人1993年首次提出了关联规则挖掘这个研究课题以来,研究人员已经提出了多种挖掘关联规则的算法:Apriori算法、FP-growth算法,以及基于这两种算法的多种改进方法,但这些算法都是把数据库中各个项目按平等一致的方式加以处理的。而在实际应用中,各个项目在使用者心目中的重要程度往往不同,一个自然的想法就是为每个项目赋予不同的权值,以区分它们的重要程度。鉴于此,本文对加权关联规则挖掘算法进行了研究。另外,在关联规则的实际挖掘过程中,用户往往需要对最小支持度和最小置信度这两个阈值进行不断调整来寻找真正感兴趣的规则;而且数据库中的数据是不断进行添加、修改和删除的,这是一个动态的交互过程。因此,关联规则的更新问题也很值得研究。本文首先概述了数据挖掘的任务、方法、应用等现状,介绍了关联规则分析的基本概念、分类及一些常见的算法思想,并着重讨论了一些经典的关联规则和加权关联规则挖掘算法,分析了算法存在的问题。在此基础上,提出了新的加权关联规则模型,并给出了挖掘加权频繁项集的矩阵位串算法(Matrix Bit string Algorithm,简记为AMB)。该算法创新之处在于引入矩阵思想,通过一次扫描交易数据库将其转化为0-1矩阵,并在判断某个项集是否加权频繁项集时采用位串做逻辑“与”运算方法,而免去了对原始交易数据库的多次扫描判断。理论分析和实验均表明,AMB算法比已有加权关联规则挖掘算法WMAR的效率更高。在分析已有增量更新算法的基础上,给出了改进的增量式更新算法MFUP,并通过实验验证了本算法的效率。在本文的最后对全文内容进行总结,并展望了进一步的研究方向。
其他文献
随着计算机的广泛应用和互联网技术的迅速发展,Web应用已经逐渐深入到人们工作和生活中的各个领域。利用先进的网络技术为平台,我国高校开发了多种管理系统。这些系统的开发为
随着Internet的普及和计算机技术的不断发展,百姓对知识分享的需求日益强烈,具有文档在线互动与共享功能的网站越来越多,许多在线协作网站为用户提供在线编辑,添加批注等功能
在信息化高速发展的时代,企业信息服务质量直接关系到企业命运。建立一个企业CTI是提高企业信息化服务水平的重要措施之一。呼叫中心(Call Center)又称客户服务中心(Customer
随着虚拟现实、分布式视算和分布式仿真技术的发展,导致了对分布三维视景的更高要求。为了满足这种要求,我们提出了一种新的建模方法,即行为特征建模方法。行为特征建模方法能更
草图生成是草图理解研究的一个重要领域。草图理解旨在给出草图的正确语义,而草图生成是草图理解的逆过程,旨在根据已知的草图语义,绘制出类似手工草图的图案。支持向量分类
随着中国教育信息化的蓬勃发展,教学资源库的建设作为一种信息活动,对提高中国的教育质量、实现教育信息的价值具有举足轻重的作用。随着Internet技术的普及,各地方学校、研
随着时代的发展,嵌入式系统应用技术正以飞快的速度扩展到各个领域,从现代通信到工业控制、乃至于国防安全,其踪影无处不在。移动定位及信息交换终端是集GPS(Global Position Sy
为了解决造型过程中出现的形状编辑问题,常常需要进行曲面变形与编辑。本文针对这个问题,主要研究了自由变形、Laplacian编辑、骨架提取和基于骨架的曲面变形技术。通过比较多
面向服务的架构(Service Oriented Architecture, SO A)是一种广泛被用来构建和集成现有分布式系统的解决方案。随着SOA技术的快速发展,互联网上的Web服务数量规模快速增长,W
在大数据时代,每个人既是信息的接收者,又是信息的发布者。每天大量的多媒体信息被人们创建并上传到互联网,如何在这些海量的数据中使用某种模态的数据去检索相关的其他模态的数