关联规则的精简方法研究

来源 :浙江师范大学 | 被引量 : 0次 | 上传用户:kobeantoni198774
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是指从大量数据中提取或“挖掘”知识。关联规则是数据挖掘当前研究的主要模式之一,用于确定数据集中不同域或属性之间的联系,找出有价值的多个域之间的依赖关系。发现频繁项集是关联规则挖掘中最基本、最重要的问题,自从Agrawal的开创性工作以来,有关研究从未停止过。当支持度阈值较低或数据集中存在长模式时,频繁项集挖掘可能产生大量频繁模式集,这将给人们的理解和从中发现有趣的模式造成一定的困难。为压缩庞大的频繁模式集,压缩的频繁项集挖掘是最近研究的一个热点问题,其中包括最大频繁项集挖掘和频繁闭项集挖掘。现有最大频繁项集挖掘算法,大多需要维护大量侯选项集并进行超集检测。当已有最大频繁项集数目较大时,超集检测将成为算法的瓶颈。本文首先提出了一种基于标记域FP-Tree的快速挖掘最大频繁项集算法BF-DMFI,该算法为FP-Tree中每个节点增加一个标记域,利用该域对节点进行有效的标记,从而减少了最大侯选频繁项集的数量,节约了超集检测时间,在一定程度上提高了算法的性能。按照搜索空间树的遍历策略,最大频繁项集挖掘算法分为宽度优先算法和深度优先算法。宽度优先算法大多需要维护大量候选项集并多次重复扫描数据库或搜索FP-Tree;而深度优先算法则需要递归构造频繁项的条件模式树并进行相应挖掘,这将加大算法的执行时间和所占用的内存空间。提出了一种基于FP-Tree的非递归深度优先挖掘算法DF-DMFI。该算法通过构造每个频繁节点的频繁子孙集和频繁前缀,连接生成最大频繁项集,利用MFI-Tree进行超集检测,并对FP-Tree进行有效的剪枝,从而保证了算法的执行效率。现有最大频繁项集和频繁闭项集挖掘算法,大多从事务数据库中直接挖掘,具有较高的时间和空间复杂度。提出了基于频繁项集的最大频繁项集(BFI-DMFI)和频繁闭项集挖掘算法(BFI-DCFI)。在BFI-DMFI算法中,通过逐个检测频繁项集在其集合中是否存在超集来判断该项集是不是最大频繁项集;在BFI-DCFI算法中,通过挖掘所有支持度相等的频繁项集中的最大频繁项集,组合生成频繁闭项集。利用此方法挖掘最大频繁项集和频繁闭项集在一定程度上降低了算法的时间和空间复杂度。在上述研究的基础上,本文最后设计并实现了一个关联规则挖掘工具原型。该原型可以挖掘出基于频繁项集、频繁闭项集和最大频繁项集的关联规则,并可根据用户自定义的规则进行约束挖掘,以进一步精简关联规则结果集。
其他文献
随着人们对移动性的追求,以3G技术和无线局域网技术为代表的无线网络获得了巨大的发展,无线网络的角色从有线网络的补充逐渐转变为有线网络的有力竞争者,给有线网络带来了巨大的
电力企业资产管理是关系到企业能否稳定生产、降低成本、继续发展的头等大事。目前,电力企业资产管理仅停留在单机或C/S(Client/Server)二层结构的系统状态上,逻辑层不独立,软件
近年来,手势识别逐渐变成人机交互中的一种重要手段。相对于静态手势识别而言,动态手势识别在现实应用中更加广泛。而手势轨迹是运动特征中的一种,其简单、鲁棒的特性使其广泛地
从大量繁杂的文本信息中获取有用的信息是信息处理的一大任务,而文本分类是实现这个任务的最重要的方法之一。特征选择和文本分类算法是文本分类的两个重要的研究方向,特征选择
随着计算机技术的快速发展,网络安全问题成了计算机领域研究热点,缓冲区溢出(BOF,Buffer Overflow)以及病毒入侵逐渐成为影响网络系统乃至计算机系统安全的主要问题。因此,挖掘程序
基于图像的绘制技术是近几年兴起的一种新的虚拟场景绘制策略,已成为当前计算机视觉的一个研究热点。基于图像的绘制技术结合了计算机视觉、计算机图形学、图像处理、摄像测
生物信息学是多学科的交叉产物,以计算机为工具对生物信息进行存储、检索和分析。本论文主要研究了生物序列可视化、比对以及蛋白质序列网络等有关问题。 从混沌游走中得到
随着无线局域网(WLAN)技术的飞速发展,其在国防、科研、教育、经济等各行业中的应用日益广泛。但是,WLAN也面临一系列阻碍其市场发展的困难,其中,安全性问题是这些阻力当中的
基于特征的可视化技术是科学计算可视化中一个重要的研究方向,在矢量场可视化方面有着重要应用。本文综述了基于特征的流场可视化技术,对其在流场可视化中的应用作了深入研究
目前,WLAN已经进入了快速发展的阶段,越来越多的应用开始使用无线局域网。实时业务要求在切换过程中有较小的延时,现有的网络也支持切换,但是这种切换需要重新进行一次802.1X认证