【摘 要】
:
关联规则挖掘已经成为数据挖掘领域重要的研究方向之一。然而传统算法生成的关联规则之间存在着大量的冗余规则,这使得用户分析和利用这些规则变得十分困难。为了帮助用户分
论文部分内容阅读
关联规则挖掘已经成为数据挖掘领域重要的研究方向之一。然而传统算法生成的关联规则之间存在着大量的冗余规则,这使得用户分析和利用这些规则变得十分困难。为了帮助用户分析,可以采用各种技术有效地减少大量的冗余规则。目前,关于正关联规则中冗余规则删剪技术的研究颇多,已经提出了多种冗余规则删剪的算法。本文总结了在正负关联规则中经常出现的几种冗余规则,并对它们进行了讨论和分析。针对这些冗余规则,本文采取了相应的方法对其进行了修剪。(1)在已有算法的基础上提出了一种改进的冗余规则修剪方法。该方法引入相关性这一概念,提出并证明了一个重要定理:若A(?)BC是一条有效的关联规则,则A(?)B(或A(?)C)也是一条有效的正关联规则,当且仅当corrA,B>1(corrA,C >1)。这一定理说明了只有当corrA,B>1(corrA,C >1)时,规则A(?)B(或A(?)C)才能相对于A(?)BC是冗余的,否则,A(?)B(或A(?)C)可能都不是一条有效的关联规则。本文根据这一定理提出了一种改进的冗余规则修剪方法,实验结果证明它能够明显地减少关联规则的数量,是有效的。(2)对PNARC算法挖掘出的负关联规则进行分析,发现其中存在了大量的冗余规则。本文只对三种典型的冗余负关联规则进行了讨论,①(?)A(?)(?)B(?)C,②(?)A(?)BC,③(?)A(?)(?)BC。因为与其他类型的负关联规则比较,相对于这三种负关联规则的冗余规则数量是比较多的。所以本文通过分析得出了三个重要的推论并给出了证明。实验证明这一方法在一定程度上删除了其中的冗余规则。
其他文献
水流模拟一直是计算机图形学中最具挑战性的研究方向之一。目前,水流模拟方面研究大多在如何简化Navier-Stokes方程方面着手,由于这些方法需要计算水流每个质点在各个时刻的状
矿用隔爆馈电开关是煤矿井下配电系统的关键设备,作为配电开关,用于含有瓦斯或煤尘等爆炸危险环境的矿井中,控制和保护低压供电网络。其性能好坏直接影响着煤矿井下的生产安全和生产效率,而目前国内馈电开关普遍存在集成度低、可靠性差、智能监控水平低等缺点。本课题将嵌入式网络控制系统应用到馈电开关中,通过对矿山供电系统工作原理、真空馈电开关工作原理以及基于EasyARM2200(Philips LPC2210为
XML数据的可扩展性和自我描述性使得它成为当前网络上数据传输的主要形式,但是它对数据的处理能力却相当的有限,实现XML存储为关系数据库以后,就可以利用关系数据库所带有的
文本复制检测技术是文本相似度计算的一项基础应用,在网页去重、知识产权保护、搜索引擎、数字图书馆等方面发挥着重要作用。但是针对中文文本的复制检测技术起步较晚,且由于
作为一种便捷的网络通讯技术,即时通讯软件已经越来越深入人心,应用范围从单纯的网络聊天工具变成工作生活所不可或缺的信息交流平台。正因为它的重要性,找出其存在的问题和
蛋白质是生命活动的物质基础,而蛋白质的结构又决定了其功能,蛋白质分子结构可视化的目的在于借助计算机图形学及相关技术,使得对微观结构的探测与分析过程达到可视化、精确化、
工业生产中,经常要求设计合理的布局和切割方式,将较大的材料分割为尺寸和需求量已知的较小块(毛坯),提高材料利用率,以降低生产成本。这类问题称为下料问题。对于一维下料问
随着高校扩招和教育信息化的开展,我国加强了高校校园网的建设。校园网从原先单一的教育网(CERNET)出口,发展到现在的多出口网络(CERNET和本地ISP两出口并存)。如今,网络服务
随着多媒体技术和网络通信技术的迅速发展,视频会议系统的研究和应用已经成为当今的一个热点。目前大部分的视频会议系统都是基于H.323协议来实现的,虽然协议比较成熟,但是实
无线传感器网络是由大量的传感器节点通过无线通信方式形成的一个多跳自组织网络系统,其目的是协作地感知、采集和处理网络区域中的信息并发送给观察者。无线传感器网络具有